Le test de Jonckheere-Terpstra

add

\bullet Présentation:

Publié en 1954 suite aux travaux de Aimable Robert Jonckheere et T. J. Terpstra, le test de Jonckheere-Terpstra également appelé test de tendance de Jonckheere est une approche non paramétrique permettant de tester la liaison entre une variable continue ou ordinale X et une variable qualitative Y à K modalités. L’idée étant d’étudier les distributions des sous-échantillons X|_{Y = g_1}, \cdots, X|_{Y = g_K} de X restreint aux différents groupes de Y et voir à quel point elles sont distinctes.

Le test de Jonckheere-Terpstra se base intégralement sur le U de Mann-Whitney et est logiquement égale à ce dernier lors que Y est binaire.

Enfin, le test de Jonckheere-Terpstra est reconnu comme étant plus puissant que le test de Kurskal-Wallis.

\bullet Le test:

Hypothèse préliminaire: X continue ou ordinale, et Y qualitative à K \geq 2 modalités.

La statistique du test de Jonckheere-Terpstra est:

JT = \sum_{C_1 = 1} ^{K - 1} \sum_{C_2 = 1} ^K U_{C_1,C_2}

U_{C_1,C_2} est la statistique de Mann-Whitney appliquée au sous-échantillon de X restreint aux groupes C_1, C_2 de Y et de formule:

U_{C_1,C_2} = \sum_{i_1 = 1} ^{n_{C_1}} \sum_{i_2 = 1} ^{n_{C_2}} I_{(X_{i_1,C_1} < X_{i_2,C_2})}

Avec I_{(\bullet)} indicatrice valant \frac{1}{2} si nous somme en présence de deux termes ex-aequos.

A noter que le lien linéaire entre le U de Mann-Whitney et le test de Wilcoxon implique que la statistique de test de Jonckheere-Terpstra peut également se réécrire en fonction du W de Wilcoxon.

Si les effectifs sont faibles alors la statistique de test JT suit une loi de Jonckheere-Terpstra. Dans le cas inverse, la statistique de test à considérer n’est plus JT mais:

Z = \frac{JT - E[JT]}{\sqrt{V(JT)}}

Avec,

E[JT] = \frac{1}{4} (n ^2 - \sum_{k = 1} ^K n_k ^2)

V(JT) = \frac{1}{72} [n ^2 (n + 2) - \sum_{k = 1} ^K n_k ^2 (2 n_k + 3)]

La statistique de test Z suit alors une loi normale centrée-réduite.

L’hypothèse H_0 est: « Il y a indépendance entre X et Y / les paramètres de localisation \theta_k sont tous égaux \forall k \in [1, \cdots, K]« .

Ci-dessous la table de la loi de Joncheere-Terpstra:

add.png

Ci-dessous la table de la loi normale:

addGestion des ex-aequos:

Dans le cas d’ex-aequos une correction de la variance doit être appliquée. La procédure vise à considérer le tableau de contingence construit à partir du tableau présentant en colonne des différentes catégories de Y et en ligne les différentes valeurs de X en fonction de Y. En posant le_i et ce_i, respectivement le nombre d’apparitions de chaque valeur en ligne et en colonne, nous appliquons la formule suivante:

V(JT) = \frac{2 (n ^3 - \sum_i le_i ^3 - \sum_j ce_j ^3) + 3 (n ^2 - \sum_i le_i ^3 - \sum_j ce_j ^2) + 5 n}{18} + \frac{(\sum_i le_i ^3 - 3 \sum_i le_i ^2 + 2n) (\sum_j ce_j ^3 - 3 \sum_j ce_j ^2 + 2n)}{9n (n - 1) (n - 2)} + \frac{(\sum_i le_i ^2 - n) (\sum_j ce_j ^2 - n)}{2n (n - 1)}

Tendance pour le rejet de H_0:

Plus la statistique de test JT est grande et plus nous augmentons les chances de rejeter H_0.

En effet, le test de Joncheere-Terpstra repose sur la somme des valeurs des U de Mann-Whitney calculables sur les différentes paires de groupes de Y, or ces valeurs sont le fruit de somme d’indicatrices valant 1 si les éléments sont correctement ordonnés. Par lien de cause à effet mieux X est ordonné par rapport à Yet plus JT est grand.

\bullet Tendance lorsque n \longrightarrow \infty:

– Nous avons fait tourner cinq simulations afin d’étudier la robustesse du test de Jonckheere-Terpstra. Nous générons des échantillons de taille 10, 10 ^2, 10 ^3, 10 ^4 puis 10 ^5 selon une loi uniforme de telle manière à ce que les différents sous-échantillons soient bien distincts et nous étudions si le fait d’augmenter le paramètre n a une influence sur le fait d’accepter H_0 à tort.

add

Nous constatons que nous rejetons à chaque fois l’hypothèse H_0, ce qui est en adéquation avec les hypothèses fixées.

– Nous avons fait tourner cinq simulations afin d’étudier la robustesse du test de Jonckheere-Terpstra. Nous générons des échantillons de taille 10, 10 ^2, 10 ^3, 10 ^4 puis 10 ^5 selon une loi uniforme de telle manière à ce que les différents sous-échantillons soient légèrement confondus et nous étudions si le fait d’augmenter le paramètre n a une influence sur le fait de rejeter H_0 à tort.

add

Nous constatons que passé un échantillon de taille N = 1000 nous rejetons à tort H_0.

Nos simulations montrent bien que le test de Jonckheere-Terpstra est influencé par la taille d’échantillon.

\bullet Annexe théorique:

Cette partie présente la démonstration liant le U de Mann-Whitney et le test de Wilcoxon (W).

La statistique de Mann-Whitney est: U = \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} 1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} et plus particulièrement:

– U_{X|_{g1}} = \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + \frac{1}{2} \times 1_{((X|_{g1})_{i_1} = (X|_{g2})_{i_1})})

U_{X|_{g2}} = \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{((X|_{g1})_{i_1} < (X|_{g2})_{i_2})} + \frac{1}{2} \times 1_{(X|_{g1})_{i_1} = (X|_{g2})_{i_1}})

Il faut voir le calcul de la somme des rangs de manière inverse, c’est-à-dire qu’il faut comprendre que \forall l, (R|_{g1})_l est égal au \sharp \lbrace X|_{g2} < X|_{g1} \mbox{ a partir de l'indice } l \rbrace , remarquons que nous appliquons un décalage de l’indice l à chaque calcul de  (R|_{g1})_l. Dés lors nous avons que:

\sum_{l = 1} ^{n_1} (R|_{g1})_l = \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{(X|_{g1})_{i_1} < (X|_{g2})_{i_2}} + \frac{1}{2} \times 1_{(X|_{g1})_{i_1} = (X|_{g2})_{i_2}}) + \sum_{l = 1} ^n l
= U_{X|_{g2}} + \frac{n \cdot (n + 1)}{2}

Or, U_{X|_{g1}} + U_{X|_{g2}} = \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + \frac{1}{2} \times 1_{(X|_{g1})_{i_1} = (X|_{g2})_{i_1}}) + \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{(X|_{g1})_{i_1} < (X|_{g2})_{i_2}} + \frac{1}{2} \times 1_{(X|_{g1})_{i_1} = (X|_{g2})_{i_1}})

= \sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} (1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + 1_{X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + 1_{(X|_{g1})_{i_1} = X|_{g2})_{i_2}}) = n_1 \times n_2

Puisque 1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + 1_{(X|_{g1})_{i_1} > (X|_{g2})_{i_2}} + 1_{(X|_{g1})_{i_1} = X|_{g2})_{i_2}} = 1.

Par conséquent, \sum_{l = 1} ^{n_1} (R|_{g1})_l = U_{X|_{g2}} + \frac{n \cdot (n + 1)}{2} = n_1 \cdot n_2 - U_{X|_{g2}} + \frac{n \cdot (n + 1)}{2} et comme \sum_{l = 1} ^{n_1} (R|_{g1})_l est la somme des rangs provenant du test de Wilcoxon, le lien entre les deux statistiques est fait.

\bullet Exemple:

Soit l’échantillon ci-dessous:

add

Les boxplots suivants offrent une visualisation plus concrète de notre jeu de données:

addCette représentation des données permet de voir que les distributions de nos 3 groupes sont sensiblement les même. Prouvons le statistiquement.

Dans un premier temps, présentons les rangs de X en fonction des différents groupes de Y,

R|_{Y = 1} = (12, 13, 2, 14, 9, 1, 5)

R|_{Y = 2} = (8, 17, 19, 4, 20, 16)

R|_{Y = 3} = (7, 11, 3, 6, 15, 10, 18)

Ensuite, calculons les U de Mann-Whitney pour les trois combinaisons de classes de Y possibles,

U_{1,1} = 4+4+6+4+4+6+5 = 33

U_{1,3} = 2+2+7+2+4+7+6 = 12

U_{2,3} = 4+1+0+6+0+1 = 30

Nous pouvons alors calculer la statistique de test de Jonckheere-Terpstra,

JT = U_{1,1} + U_{1,2} + U_{2,3} = 33 + 12 + 30 = 75

En reportant cette valeur à la loi de Jonckheere, nous trouvons une p-valeur de 0,5852 >>>> 5 \%. Nous en concluons que nous ne pouvons rejeter H_0 et donc que X et Y sont indépendants.

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#npar1way_toc.htm

Package et fonction R: http://www.inside-r.org/node/161722

\bullet Bibliographie:

– The asymptotic normality and consistency of Kendall’s test against trend, when ties are present in one ranking de T. J. Terpstra

– A distribution-free k-sample test again ordered alternatives de A. R. Jonckheere

– Jonkheere-Terpstra test de Tao Xu

– Comparaison de populations – Tests non paramétriques de Ricco Rakotomalala