Le test de comparaison de Van der Waerden

add.png

\bullet Présentation:

Publié en 1952 par Bartel Leendert van der Waerden, le test de comparaison de Van der Waerden est une approche non paramétrique permettant de tester si les sous-échantillons X|_{Y = 1}, \cdots, X|_{Y = K}, d’une variable continue ou ordinale X restreinte aux K groupes d’une variable qualitative Y, ont même loi de distribution.

Le test de comparaison de Van der Waerden est proche de celui de Fisher-Yates-Tery-Hoeffding et se base sur les rangs associés à X. Il partage avec ce dernier plusieurs propriétés d’intérêt comme:

– une meilleure efficacité que le test de Wilcoxon-Mann-Whitney lorsque l’échantillon est grand,

– une puissance équivalente à l’Analyse de Variance (ANOVA) lorsque les données suivent une loi normale,

– une bonne robustesse, notamment face aux outliers.

\bullet Le test:

Hypothèse préliminaire: Variable continue.

La statistique du test de comparaison de Van der Waerden se base sur le vecteur R de rangs associés à X. Sa formule est:

T_1 = \frac{1}{S ^2} \sum_{k = 1} ^{K} n_k [\sum_{i = 1} ^{n_k} \Phi ^{-1} (\frac{(R|_{Y = k})_i}{n + 1})]^2

Où, en notant \Phi ^{-1} la fonction inverse de la loi normale centrée-réduite également appelée fonction quantile normale, nous avons:

S ^2 = \frac{1}{n - 1} \sum_{k = 1} ^K \sum_{i = 1} ^{n_k} [\Phi ^{-1} (\frac{(R|_{Y = k})_i}{n + 1})]^2

La statistique de test suit une loi du \chi ^2 à K - 1 degrés de liberté et l’hypothèse H_0 est: « Distribution identique de la variable au sein des K groupes / F_1 = \cdots = F_K« .

Ci-dessous le tableau de la loi du \chi ^2.

addTendance pour le rejet de H_0:

Étudier le cas où nous rejetons H_0 revient à étudier les deux cas suivants:

S ^2 = \frac{1}{n-1} \sum_{k = 1} ^K \sum_{i = 1} ^{n_k} [\Phi ^{-1} (\frac{(R|_{Y = k})_i}{n+1})] ^2 = \frac{1}{n-1} \sum_{i = 1} ^n [\Phi ^{-1} (\frac{R_i}{n+1})] ^2 \rightarrow 0

\sum_{k = 1} ^K n_k [\sum_{i = 1} ^{n_k} \Phi ^{-1} (\frac{(R|_{Y = k})_i}{n+1})] ^2 \rightarrow \infty

Pour le premier cas, il revient à déterminer le cas où la distribution serait totalement aléatoire puisqu’il peut se simplifier comme les différentes valeurs obtenus par \Phi ^{-1} sur les différents rangs possibles. Il constitue le dénominateur du test de Van der Waerden et permet de mesurer l’écart des différentes distributions à l’aléa.

Pour le second cas, il est trivial de voir que si au moins un des sous échantillons X|_{Y = k} possède des rangs R|_{Y = k} isolés alors la fonction quantile de la loi normale \Phi ^{-1} renverra des éléments pour lesquelles la somme, élevée au carré, va exploser faisant tendre l’ensemble vers \infty contrairement au cas où les distributions seront confondues et les éléments s’annuleront (la fonction \Phi ^{-1} présentant une symétrie en 0, par conséquent une distribution aléatoire verra sa somme tendre vers 0).

\bullet Tendance lorsque n \longrightarrow \infty:

Nous proposons ici de vérifier si le test de comparaison de Van der Waerden est sensible aux grands échantillons ou non. Étant donné la formule de la statistique de test, et qui fait intervenir régulièrement les effectifs n_k des différents groupes, il semblerait que ce soit le cas.

Le tableau ci-dessous présente l’évolution des p-valeurs associées aux statistiques de test calculées sur plusieurs simulations dans le cas où les distribution sont différentes d’un groupe à l’autre.

add

Globalement, quelque soit la taille de l’échantillon, le test statistique rejette H_0, ce qui est en accords avec nos hypothèses.

Procédons à la même expérience mais cette fois-ci dans un cas où les différentes distributions ne devraient pas être statistiquement différentes. Le tableau ci-dessous présente ces résultats.

add

Jusqu’à N = 100 nous restons cohérent avec nos hypothèses, malheureusement nous voyons qu’à partir d’un échantillon de taille 1 000, le test rejette H_0 à tort. Par conséquent nous en déduisons que le test des comparaison de Van der Waerden est sensible à la taille de l’échantillon.

\bullet Annexe théorique:

Nous proposons ici un éclairage sur le fait que si X est distribué aléatoirement par rapport à Y alors T_1 = 0.

Il suffit d’étudier le numérateur. Supposons que nous sommes dans la situation décrite ci-dessus, par symétrie de la fonction quantile normale \Phi ^{-1}, nous avons:

\forall k, [\sum_{i = 1} ^{n_1} \Phi ^{-1} (\frac{(R|_{Y = 1})_i}{n + 1})] ^2 \approx \cdots \approx [\sum_{i = 1} ^{n_K} \Phi ^{-1} (\frac{(R|_{Y = K})_i}{n + 1})] ^2

\Rightarrow \forall k, \sum_{i = 1} ^{n_1} \Phi ^{-1} (\frac{(R|_{Y = 1})_i}{n + 1}) \approx \cdots \approx \sum_{i = 1} ^{n_K} \Phi ^{-1} (\frac{(R|_{Y = K})_i}{n + 1})

Il reste donc à expliquer pourquoi \sum_{i = 1} ^{n_k} \Phi ^{-1} (\frac{(R|_{Y = k})_i}{n + 1}) = 0 dans le cadre supposé. Une fois de plus la symétrie de \Phi ^{-1} joue un rôle prépondérant. En effet, les valeurs prises par \Phi ^{-1} si X est distribué aléatoire par rapport à Y vont s’annuler car la fonction quantile normale est centrée en 0, ce qui implique que,

\sum_{k = 1} ^{n_k} \Phi ^{-1} (\frac{(R|_{Y = k})_i}{n + 1})

= \sum_{k = 1} ^{\frac{n_k}{2}} \Phi ^{-1} (\frac{(R|_{Y = k})_i}{n + 1}) + \sum_{k = \frac{n_k}{2} + 1} ^{n_k} \Phi ^{-1} (\frac{(R|_{Y = k})_i}{n + 1})

\approx C - C

\approx 0

Par conséquent, si nous avons distribution aléatoire de l’ensemble des sous-échantillons, alors les différents termes sont égaux et de valeur nulle impliquant que T_1 = 0 et donc que nous ne pouvons rejeter H_0. Ce fait marque là l’une des propriétés du test de Van der Waerden, si une des distributions n’est pas aléatoire, alors nous rejetons H_0.

\bullet Exemple:

Soit l’échantillon ci-dessous:

addNous présentons ci-dessous les trois courbes de densité liées à X|_{Y = 1} (en vert), X_{Y = 2} (en bleu) et X|_{Y = 3} (en rouge):

add

Cette représentation des données permet de voir que les si les distributions de X|_{Y = 2} et X|_{Y = 3} semblent plus ou moins similaires, elles semblent différer de celle de X|_{Y = 1}. Vérifions-le statistiquement.

Commençons par la transformation de X en vecteur de rang R que nous séparons directement en fonction des trois différents groupes de Y:

\begin{cases} R|_{Y = 1} = (1, 2, 5, 9, 12, 13, 14) \\ R|_{Y = 2} = (4, 8, 16, 17, 19, 20) \\ R|_{Y = 3} = (3, 6, 7, 10, 11, 15, 18) \end{cases}

Appliquons désormais les différentes phases de calcul pour obtenir S ^2,

\Rightarrow \begin{cases} \frac{R|_{Y = 1}}{21} = (0.57142857,0.61904762,0.09523810,0.6666667,0.42857143,0.04761905,0.23809524) \\ \frac{R|_{Y = 2}}{21} = (0.3809524,0.8095238,0.9047619,0.1904762,0.9523810,0.7619048) \\ \frac{R|_{Y = 3}}{21} = (0.3333333,0.5238095,0.1428571,0.2857143,0.7142857,0.4761905,0.8571429) \end{cases}

\Rightarrow \begin{cases} \Phi ^{-1} (\frac{R|_{Y = 1}}{21}) = (0.1800124,0.3029804,-1.3091717,0.4307273,-0.1800124,-1.6683912,-0.7124430) \\ \Phi ^{-1} (\frac{R|_{Y = 2}}{21}) = (-0.3029804,0.8761428,1.3091717,-0.8761428,1.6683912,0.7124430) \\ \Phi ^{-1} (\frac{R|_{Y = 3}}{21}) = (-0.4307273,0.0597171,-1.0675705,-0.5659488,0.5659488,-0.0597171,1.0675705) \end{cases}

\Rightarrow \begin{cases} \sum_{i = 1} ^7 [\Phi ^{-1} (\frac{R|_{Y = 1}}{21})] ^2 = 5.347167 \\ \sum_{i = 1} ^6 [\Phi ^{-1} (\frac{R|_{Y = 2}}{21})] ^2 = 6.632085 \\ \sum_{i = 1} ^7 [\Phi ^{-1} (\frac{R|_{Y = 3}}{21})] ^2 = 3.112668 \end{cases}

\Rightarrow S ^2 = \frac{1}{20 - 1} \times \sum_{k = 1} ^3 \sum_{i = 1} ^{n_k} [\Phi ^{-1} (\frac{(R|_{Y = k})}{20 + 1})] ^2

= \frac{1}{19} \times (\sum_{i = 1} ^7 [\Phi ^{-1} (\frac{(R|_{Y = 1})_i}{21})] ^2 + \sum_{i = 1} ^6 [\Phi ^{-1} (\frac{(R|_{Y = 2})_i}{21})] ^2 + \sum_{i = 1} ^7 [\Phi ^{-1} (\frac{(R|_{Y = 3})_i}{21})] ^2)

= \frac{1}{19} \times (5.347167 + 6.632085 + 3.112668)

= \frac{15.09192}{19}

= 0.7943116

S ^2 étant déterminé, nous pouvons désormais calculer la statistique de test T_1:

T_1 = \frac{1}{S ^2} \times \sum_{k = 1} ^3 n_k \times [\sum_{i = 1} ^{n_k} \Phi ^{-1} (\frac{(R|_{Y = k})_i}{20 + 1})] ^2

= \frac{1}{0.7943116} \times (7 \times [\sum_{i = 1} ^7 \Phi ^{-1} (\frac{(R|_{Y = 1})_i}{21})] ^2 + 6 \times [\sum_{i = 1} ^7 \Phi ^{-1} (\frac{(R|_{Y = 2})_i}{21})] ^2 + 7 \times [\sum_{i = 1} ^7 \Phi ^{-1} (\frac{(R|_{Y = 3})_i}{21})] ^2)

= \frac{1}{0.7943116} \times (7 \times (-0.4861559) ^2 + 6 \times 3.940483 ^2 + 7 \times 0.9210763 ^2)

= \frac{3.182439}{0.7943116}

= 4.006537

Si nous reportons cette valeur à la table de la loi du \chi ^2 pour 3 - 1 = 2 degrés de liberté nous obtenons une p-valeur de 0.1346258 >>>> 5 \%. Nous concluons que nous ne pouvons rejeter H_0 et donc que les distributions de X|_{Y = 1}, X|_{Y = 2}, X|_{Y = 3} sont différentes.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_npar1way_sect001.htm

Package et fonction R: http://www.inside-r.org/packages/cran/agricolae/docs/waerden.test

\bullet Bibliographie:

– Order tests for the two-sample problem and their power de Barte Leendert van der Waerden

– Méthodes et modèles en statistique non paramétrique: exposé fondamental de Philippe Capéraà et Bernard van Cutsem

– Comparaison de populations. Tests non paramétriques de Ricco Rakotomalala