Le test de Fligner-Policello

add

\bullet Présentation:

Publié en 1981 par Michael A. Fligner et George E. Policello II, le test de Fligner-Policello, également appelé test des rangs robustes de Fligner-Policello, est une approche non paramétrique permettant de tester si X|_{Y = 1}, X|_{Y = 2}, les sous-échantillons d’une variable continue X restreinte aux deux groupes de Y, ont même médiane.

A noter que la manière dont a été pensé le test impose que passer une certaine taille d’échantillon, le test de Fligner-Policello est particulièrement consommateur en temps de calcul.

\bullet Le test:

Hypothèse préliminaire: X continue et Y binaire.

La formule de la statistique de test de Fligner-Policello est,

Z = \frac{\sum_{i_2 = 1} ^{n_2} (P_2)_{i_2} - \sum_{i_1 = 1} ^{n_1} (P_1)_{i_1}}{2 \sqrt{V_1 + V_2 + \overline{P_1} \overline{P_2}}}

Où,

\forall i_1 \in [1,n_1], (P_1)_{i_1} = \sum_{i_2 = 1} ^{n_2} [I_{(X|_{Y = 2})_{i_2} < (X|_{Y = 1})_{i_1}} + \frac{1}{2} I_{(X|_{Y = 2})_{i_2} = (X|_{Y = 1})_{i_1}}]

\forall i_2 \in [1,n_2], (P_2)_{i_2} = \sum_{i_1 = 1} ^{n_1} [I_{(X|_{Y = 1})_{i_1} < (X|_{Y = 2})_{i_2}} + \frac{1}{2} I_{(X|_{Y = 1})_{i_1} = (X|_{Y = 2})_{i_2}}]

Il s’agit en réalité des statistiques de test U_{X|_{g_1}}, U_{X|_{g_2}} de Mann-Whitney. Le lien linéaire existant entre elle et le W de Wilcoxon implique que le test de Fligner-Policello peut se réécrire en fonction de cette dernière. Enfin,

\forall k \in [1,2], \overline{P_k} = \frac{\sum_{i_k = 1} ^{n_k} (P_k)_{i_k}}{n_k}

\forall k \in [1,2], V_k = \sum_{i_k = 1} ^{n_k} [(P_k)_{i_k} - \overline{P_k}] ^2

La statistique de test suit une loi normale centrée-réduite et l’hypothèse H_0 est: « Les médianes sont égales / \theta_1 = \theta_2« .

Ci-dessous la table de la loi normale centrée-réduite.

add

Tendance pour le rejet de H_0:

Plus la statistique de test Z est grande et plus nous avons de chance de rejeter H_0. Ce qui implique,

\sum_{i_2 = 1} ^{n_2} (P_2)_{i_2} - \sum_{i_1 = 1} ^{n_1} (P_1)_{i_1} \rightarrow \infty

\Rightarrow \sum_{i_2 = 1} ^{n_2} (P_2)_{i_2} >>>> \sum_{i_1 = 1} ^{n_1} (P_1)_{i_1}

\Rightarrow \sum_{i_2 = 1} ^{n_2} \sum_{i_1 = 1} ^{n_1} [I_{(X|_{Y = 1})_{i_1} < (X|_{Y = 2})_{i_2}} + \frac{1}{2} I_{(X|_{Y = 1})_{i_1} = (X|_{Y = 2})_{i_2}}] >>>> \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} [I_{(X|_{Y = 2})_{i_2} < (X|_{Y = 1})_{i_1}} + \frac{1}{2} I_{(X|_{Y = 1})_{i_1} = (X|_{Y = 2})_{i_2}}]

\Rightarrow \forall i_1, i_2, \sum_{i_2 = 1} ^{n_2} \sum_{i_1 = 1} ^{n_1} I_{(X|_{Y = 1})_{i_1} < (X|_{Y = 2})_{i_2}} >>>> \sum_{i_1 = 1} ^{n_1} \sum_{i_1 = 2} ^{n_2} I_{(X|_{Y = 2})_{i_2} < (X|_{Y = 1})_{i_1}}

\Rightarrow \forall i_1, i_2, (X|_{Y = 2})_{i_2} > (X|_{Y = 1})_{i_1}

Soit que les valeurs de X sont ordonnées en fonction des groupes de Y et donc que les médianes sont différentes.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous proposons ici de vérifier si le test de Fligner-Policello est sensible aux grands échantillons ou non.

Le tableau ci-dessous présente l’évolution des p-valeurs associées aux statistiques de test calculées sur plusieurs simulations dans le cas où les médianes sont différentes d’un groupe à l’autre.

add2

Globalement, quelque soit la taille de l’échantillon, le test statistique rejette H_0, ce qui est en accords avec nos hypothèses.

Procédons à la même expérience mais cette fois-ci dans un cas où les différentes médianes ne devraient pas être statistiquement différentes. Le tableau ci-dessous présente ces résultats.

add2

Jusqu’à N = 100 nous restons cohérent avec nos hypothèses, cependant nous voyons que pour un échantillon de taille N = 1000, le test rejette H_0 à tort.

Nous en déduisons que le test de Fligner-Policello est influencé par la taille de l’échantillon.

\bullet Annexe théorique:

Nous présentons ici une esquisse de la démonstration du lien entre le U de Mann-Whitney et le W de Wilcoxon.

La statistique de Mann-Whitney est: U = \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} 1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} et plus particulièrement:

– U_{X|_{g1}} = \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + \frac{1}{2} \times 1_{((X|_{g1})_{i_1} = (X|_{g2})_{i_1})})

U_{X|_{g2}} = \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{((X|_{g1})_{i_1} < (X|_{g2})_{i_2})} + \frac{1}{2} \times 1_{(X|_{g1})_{i_1} = (X|_{g2})_{i_1}})

Il faut voir le calcul de la somme des rangs de manière inverse, c’est-à-dire qu’il faut comprendre que \forall l, (R|_{g1})_l est égal au \sharp \lbrace X|_{g2} < X|_{g1} \mbox{ a partir de l'indice } l \rbrace , remarquons que nous appliquons un décalage de l’indice l à chaque calcul de  (R|_{g1})_l. Dés lors nous avons que:

\sum_{l = 1} ^{n_1} (R|_{g1})_l = \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{(X|_{g1})_{i_1} < (X|_{g2})_{i_2}} + \frac{1}{2} \times 1_{(X|_{g1})_{i_1} = (X|_{g2})_{i_2}}) + \sum_{l = 1} ^n l
= U_{X|_{g2}} + \frac{n \cdot (n + 1)}{2}

Or, U_{X|_{g1}} + U_{X|_{g2}} = \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + \frac{1}{2} \times 1_{(X|_{g1})_{i_1} = (X|_{g2})_{i_1}}) + \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{(X|_{g1})_{i_1} < (X|_{g2})_{i_2}} + \frac{1}{2} \times 1_{(X|_{g1})_{i_1} = (X|_{g2})_{i_1}})

= \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + 1_{X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + 1_{(X|_{g1})_{i_1} = X|_{g2})_{i_2}}) = n_1 \times n_2

Puisque 1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + 1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + 1_{(X|_{g1})_{i_1} = X|_{g2})_{i_2}} = 1.

Par conséquent, \sum_{l = 1} ^{n_1} (R|_{g1})_l = U_{X|_{g2}} + \frac{n \cdot (n + 1)}{2} = n_1 \cdot n_2 - U_{X|_{g2}} + \frac{n \cdot (n + 1)}{2} et comme \sum_{l = 1} ^{n_1} (R|_{g1})_l est la somme des rangs provenant du test de Wilcoxon, le lien entre les deux statistiques est fait.

\bullet Exemple:

Soit la variable aléatoire X distribuée selon deux groupes d’une variable Y:

add

Ci-dessous, les densités associées aux distributions de X selon nos deux groupes. Nous pourrons remarquer que nos deux sous-échantillons ont la même distribution et donc que les médianes semblent égales.

addDans un premier temps, déterminons les vecteurs,

P_1 = P((X|_{Y = 1}))

= (\sum_{i_2 = 1} ^{10} [I_{(X|_{Y = 2})_{i_2} < 8.1472} + \frac{1}{2} \times I_{(X|_{Y = 2})_{i_2} = 8.1472}], \cdots, \sum_{i_2 = 1} ^{10} [I_{(X|_{Y = 2})_{i_2} < 9.6489} + \frac{1}{2} \times I_{(X|_{Y = 2})_{i_2} = 9.6489}])

= (6,6,0,6,4,0,2,4,8,9)

\Rightarrow \sum_{i_1 = 1} ^{10} (P_1)_{i_1} = 6 + \cdots + 9 = 45

P_2 = P((X|_{Y = 2}))

= (\sum_{i_1 = 1} ^{10} [I_{(X|_{Y = 1})_{i_1} < 1.5761} + \frac{1}{2} \times I_{(X|_{Y = 1})_{i_1} = 1.5761}], \cdots, \sum_{i_1 = 1} ^{10} [I_{(X|_{Y = 1})_{i_1} < 9.5949} + \frac{1}{2} \times I_{(X|_{Y = 1})_{i_1} = 9.5949}])

= (2,10,8,3,5,2,3,8,5,9)

\Rightarrow \sum_{i_2 = 1} ^{10} (P_2)_{i_2} = 2 + \cdots + 9 = 55

A partir de ces deux objets, nous pouvons déterminer les éléments manquants,

\overline{P_1} = \frac{45}{10} = 4.5

\overline{P_2} = \frac{55}{10} = 5.5

V_1 = V_{X|_{Y = 1}}

= \sum_{i_1 = 1} ^{10} [(P_1)_{i_1} - 4.5] ^2

= (6 - 4.5) ^2 + \cdots + (9 - 4.5) ^2

= 86.5

V_2 = V_{X|_{Y = 2}}

= \sum_{i_2 = 1} ^{10} [(P_2)_{i_2} - 5.5] ^2

= (2 - 5.5) ^2 + \cdots + (9 - 5.5) ^2

= 82.5

Il ne nous reste plus qu’à calculer la statistique de test,

Z = \frac{55 - 45}{2 \times \sqrt{86.5+82.5 + 4.5 \times 5.5}} = \frac{10}{2 \times \sqrt{193.75}} = \frac{10}{27.83882} = 0.3592106

Si nous reportons la valeur de la statistique de test à la table de la loi normale centrée-réduite, nous obtenons une p-valeur de 0.7465 >>> 5 \%. Nous en concluons que nous ne pouvons rejeter H_0 et donc que les médianes sont égales.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/statug/65328/HTML/default/viewer.htm#statug_npar1way_details20.htm

Package et fonction R: http://finzi.psych.upenn.edu/R/library/RVAideMemoire/html/fp.test.html

\bullet Bibliographie:

– Robust Rank Procedures for the Behrens-Fisher Problem de M. A. Fligner et G. E. Policello