Le test des suites de Wald-Wolfowitz

add

\bullet Présentation: 

Publié en 1943 par Abraham Wald et Jacob Wolfowitz, le test des suites de Wald–Wolfowitz, également appelé test des séquences ou test des « runs » ou encore test des « runs » de Wald-Wolfowitz, est une approche non paramétrique permettant d’étudier les distributions de X|_{Y = 1}, X_{Y = 2}, les sous-échantillons d’une variable continue X restreinte aux deux groupes d’une variable qualitative Y.

Le test des suites de Wald-Wolfowitz est une alternative au test de Student, de plus il présente l’avantage de pouvoir mettre en évidence des liaisons non linéaires en X et Y.

\bullet Le coefficient:

Hypothèse préliminaire: X continue et Y binaire.

Le test des suites de Wald-Wolfowitz requiert dans un premier temps que X soit ordonné par ordre croissant afin de fixer la suite Y. Il faut alors déterminer le nombre U de séquences dessinées par Y et reporter cette statistique de test à la table de Wald-Wolfowitz.

Dans le cas où l’échantillon est de taille suffisamment importante, il faudra tout d’abord calculer la moyenne et la variance:

\mu = \frac{2 N_- \cdot N_+}{N} + 1

\sigma ^2 = \frac{(\mu - 1)(\mu - 2)}{N - 1}

(-,+) représente les deux valeurs que peut prendre la séquence étudiée et N_-, N_+ le nombre total de - et de + dans la séquence. Enfin, N = N_- + N_+.

Enfin, nous calculons la statistique de test,

Z = | \frac{U - \mu}{\sigma} |

Elle suit une loi normale centrée-réduite et l’hypothèse H_0 est: « X et Y sont indépendants ».

Ci-dessous la table de Wald-Wolfowitz.

add4

Ci-dessous la table de la loi normale centrée-réduite.

add

Tendance pour le rejet de H_0:

Plus la statistique de test Z est grande et plus nous avons de chance de rejeter H_0. Ce qui implique,

Z \rightarrow \infty \Rightarrow | \frac{U - \mu}{\sigma} | \rightarrow \infty \Rightarrow U \rightarrow \infty

U, nombre de séquences que nous pouvons observer après avoir ordonné les données, et compris dans l’intervalle [2, arr(\mu)] avec arr() l’arrondi au supérieur. \mu représente le nombre de séquences attendu sous l’hypothèse H_0 de distribution aléatoire et qui prend en compte la configuration possible en fonction du nombre de - et de +. Par conséquent, plus U s’éloigne de \mu et plus nous avons de chance de rejeter H_0.

La manière dont a été pensée le test des suites de Wald-Wolfowitz montre que finalement il se base sur les localisations de la distribution de X par rapport à Y permettant ainsi de ne pas se limiter aux relations linéaires mais également paraboliques ou sinusoïdales.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous proposons ici d’observer le comportement du test des suites de Wald-Wolfowitz au fur et à mesure que la taille d’échantillon croît.

– Nous avons généré plusieurs échantillons de taille de plus en plus grande et dans le cas où la distribution de X dépend de Y. Le tableau ci-dessous synthétise ces résultats.

add3

Nous constatons que quelque soit la taille d’échantillon nous rejetons H_0 conformément à notre hypothèse.

– Nous avons généré plusieurs échantillons de taille de plus en plus grande cette fois-ci dans le cas où la distribution de X est indépendante de Y. Le tableau ci-dessous synthétise ces résultats.

add2

Nous constatons que jusqu’à N = 10 000 nous acceptons H_0 et restons cohérent avec notre hypothèse. C’est entre N = 10 000 et N = 100 000 que nous commençons à rejeter H_0 à tort.

Nous en concluons que le test des suites de Wald-Wolfowitz présente une bonne résistance aux grands échantillons.

\bullet Annexe théorique:

Nous présentons ci une esquisse de la démonstration de E[U] et V(U).

La statistique U est définie comme le nombre de séquences tel que U = U_- + U_+. Nous dénombrons C_{N_-} ^{N_- + N_+} = \frac{(N_- + N_+)!}{N_- ! N_+ !} séquences possibles et de probabilités toutes égales à \frac{1}{C_{N_-} ^{N_- + N_+}}.

Notons e_- le nombre de séquences de - et \sum_{i = 1} ^{e_-} (Y |_-)_i = N_-. Et, Notons e_+ le nombre de séquences de + et \sum_{i = 1} ^{e_+} (Y |_+)_i = N_+

Sous H_0, nous avons donc U = 2 k avec e_-  = e_+ = k. Le nombre de séquences (Y|_-)_i, respectivement (Y|_+)_i, tel que la somme donne N_-, respectivement N_+, est représenté par le coefficient a ^{N_-} ,respectivement a ^{N_+}, dans l’expression,

* = (a + a ^2 + a ^3 + \cdots) ^k = (\frac{a}{1 - a}) ^k = C_{k - 1} ^{N_- - 1}

** = (a + a ^2 + a ^3 + \cdots) ^k = (\frac{a}{1 - a}) ^k = C_{k - 1} ^{N_+ - 1}

Nous avons alors,

P(U = 2 k) = \frac{2 C_{k - 1} ^{N_- - 1} C_{k - 1} ^{N_+ - 1}}{C_{N_-} ^{N_- + N_+}}

A partir de ce résultat nous pouvons calculer l’espérance et la variance de U. Nous avons,

E[U] = \sum_{k = 0} ^{N_- - 1} k P(U = 2k)

= \sum_{k = 1} ^{N_- - 1} k \frac{2 C_{k - 1} ^{N_- - 1} C_{k - 1} ^{N_+ - 1}}{C_{N_-} ^{N_- + N_+}}

= \frac{2}{C_{N_-} ^{N_- + N_+}} \sum_{k = 1} ^{N_- - 1} k C_{k - 1} ^{N_- - 1} C_{k - 1} ^{N_+ - 1}

En reprenant les expressions *, **, nous obtenons,

E[U] = \frac{2 (N_- - 1) (1 + a) ^{N_- - 2} a (1 + \frac{1}{a}) ^{N_+ - 1}}{C_{N_-} ^{N_- + N_+}}

= \frac{2 (N_- - 1) C_{N_+ - 2} ^{N_- + N_+ - 3}}{C_{N_-} ^{N_- + N_+}}

= 1 + \frac{2 N_- N_+}{N_+ + N_-}

Enfin, une approche similaire pour E[U ^2] permet de trouver,

var(U) = \frac{2 N_- N_+ (2 N_- N_+ - N_- - N_+)}{(N_- + N_+) ^2 (N_- + N_+ - 1)} = \frac{(E[U] - 1) (E[U] - 2)}{N_- + N_+ - 1}

\bullet Exemple:

Soit la variable continue X et notre variable binaire Y,

add

Ci-dessous, le boxplot des distributions de X pour le groupe 1 (en vert) et le groupe 2 (en rouge) permet de voir que visuellement nous sommes en présente d’une liaison parabolique entre nos deux variables.

addDans un premier temps, nous rangeons les données par ordre croissant de X. Nous obtenons alors la suite S issue de Y rangée en fonction de X et de notation - = 1, + = 2,

S = (+,+,+,+,+,-,-,-,-,-,-,-,-,-,-,+,+,+,+,+)

Nous avons alors,

N_- = 10,

N_+ = 10,

N = 20,

R = 3.

\mu = \frac{2 \times 10 \times 10}{20} + 1 = \frac{10}{1} + 1 = 11

\sigma ^2 = \frac{(11 - 1) \times (11 - 2)}{20 - 1} = \frac{90}{19} = 4.736842

Nous pouvons maintenant calculer la statistique de test des suites de Wald-Wolfowitz,

Z = | \frac{3 - 11}{\sqrt{4.736842}} | = | \frac{-8}{2.176429} | = |- 3.675746| = 3.675746

En reportant cette valeur à la table de la loi normale centrée-réduite, nous obtenons une p-valeur de 0.0002371551. Nous concluons que nous pouvons rejeter H_0 et donc qu’il y a une liaison entre Y et X.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/kb/33/092.html

Package et fonction R: http://finzi.psych.upenn.edu/library/randtests/html/runs.test.html

\bullet Bibliographie: 

– On a Test Whether Two Samples Are from the Same Population de Abraham Wald et Jacob Wolfowitz

– Tables for testing randomness of grouping in a sequence of alternatives de Frieda S. Swed et C. Eisenhart

– Pratique de la Régression Linéaire Multiple. Diagnostic et sélection de variables de Ricco Rakotomalala

– Introduction à la décision statistique. Fiches aide mémoire de F. Colin, C. Collet, F. Dessaint, V. Ginot, C. Hennequet, K. Kiêu, F. Laurens, A. Moisan, P. Montpied, C. Ravel, B. Schaeffer et P. Wavresky