Les tests de la médiane

add

\bullet Présentation:

Les tests de la médiane présentent une alternative aux tests basés sur les moyennes en permettant de s’affranchir des outliers lorsque les données présentent de faibles effectifs. En ce sens, les tests de la médiane s’adaptent assez bien aux distributions symétriques à queue lourde mais reste peu puissant lorsque les données suivent une loi normale où toute distribution à queue faible.

Le plus populaire des tests de la médiane provient des travaux de G. W. Brown et A. M. Mood en 1951, son nom est d’ailleurs le  test de Mood voir test de Brown-Mood. Il s’agit d’une approche non paramétrique permettant de tester les  différences de distribution des différents sous-échantillons (X|_{Y = 1}, \cdots, X|_{Y = K}) d’une variable continue X restreinte aux K groupes d’une variable qualitative Y en focalisant sur les médianes.

Nous présenterons également les deux autres versions du test de la médiane au cours de cet article.

\bullet Le test:

Hypothèse préliminaire: variable continue X et une variable variable qualitative Y à K modalités.

Le test de Mood consiste à construire le tableau 2 \times K de configuration,

– pour la cellule k de la première ligne: \# \lbrace X|_{Y = k} \leq Mediane(X) \rbrace , \forall k \in [1, K]

– pour la cellule k de la seconde ligne, \# \lbrace X|_{Y = k} > Mediane(X) \rbrace, \forall k \in [1, K]

Une fois ce tableau croisé construit, il suffit de procéder à un test du \chi ^2 de Pearson à K - 1 degrés de liberté si l’effectif n > 20, sinon à un test exact de Fisher. L’hypothèse H_0 est: « Les médianes sont égales / Mediane(X|_{y = 1}) = \cdots = Mediane(X|_{y = k})« .

Ci-dessous la table de la loi du \chi ^2.

add47Tendance pour le rejet de H_0:

Le test de Mood est basé sur le test du \chi ^2 de Pearson. Par conséquent, il faut que les effectifs observés soient les plus éloignés possibles des effectifs théoriques pour pouvoir accepter H_0. Ce cas se produit assez intuitivement si la médiane de X fait office de ligne de démarcation séparant les X|_{Y = k}.

En ce sens le test de Mood ne permet pas de conclure que tous les sous-échantillons ont des distributions différentes mais simplement que nous avons au moins deux catégories de distribution au sein de X restreinte aux différents groupes de Y.

Autres versions:

Deux autres versions du test de la médiane existent mais restent utilisables exclusivement pour Y est binaire.

– La première étant plus connue comme l’alternative au test de Mood et porte le nom plus directe de test de la médiane. Elle se base sur un passage aux rangs de X et sur la fonction score des rangs linéaires:

M = \sum_{i _1= 1} ^{n_1} I_{(R_{i_1} > \frac{n + 1}{2})}

Il faut alors déterminer l’espérance et la variance de M:

E[M] = \frac{n_1}{2} si n, \frac{n_2 \cdot (n - 1)}{2 \cdot n} si n impair,

V(M) = \frac{n_1 \cdot n_2}{4 \cdot (n - 1)} si n pair, \frac{n_1 \cdot n_2 \cdot (n + 1)}{4 \cdot n ^2} sinon.

La statistique de test est alors:

Z = \frac{M - E[M]}{\sqrt{V(M)}}

La valeur absolue | Z | suit une loi normale centrée-réduite. L’hypothèse H_0 restant la même.

Ci-dessous la table de la loi normale centrée-réduite.

add10Tendance pour le rejet de H_0:

Plus la statistique de test Z est grande et plus nous avons de chance de rejetter H_0. Ainsi, cela revient à étudier le rapport,

\frac{M - E[M]}{\sqrt{V(M)}} \rightarrow \infty \Rightarrow M - E[M] \rightarrow \infty \Rightarrow M \rightarrow E[M]

Soit, M \rightarrow \frac{n1}{2}, \frac{n_1 \cdot (n - 1)}{2 \cdot n} en fonction de la parité de n.

Ce qui représente une comparaison entre le nombre d’éléments du groupe 1 supérieurs au rang médian global (soit la distribution de X|_{Y = 1}) avec le rang médian du groupe 1. En d’autres termes, plus nous avons d’élements du groupe 1 qui sont inférieurs ou supérieurs au rang médian globale et plus la distribution de X|_{Y = 1}, et inversement la distribution de X|_{Y = 2} sont atypiques, favorisant le rejet de H_0.

– L’autre version est beaucoup moins répandue, sa statistique de test est:

T = \frac{\frac{\sharp \lbrace X|_{Y = 1} > Med(X) \rbrace}{n_1} - \frac{\sharp \lbrace X|_{Y = 2} > Med(X) \rbrace}{n_2}}{\sqrt{\widehat{p} \cdot (1 - \widehat{p}) \cdot (\frac{1}{n_1} + \frac{1}{n_2}})}

, où \widehat{p} = \frac{\sharp \lbrace X|_{Y = 1} > Med(X) \rbrace + \sharp \lbrace X|_{Y = 2} > Med(X) \rbrace}{n_1 + n_2}.

Et suit une loi hypergéométrique à (n_1, n_2, n) degrés de liberté. L’hypothèse H_0 reste la même.

\bullet Tendance lorsque n \longrightarrow \infty:

Concernant le test de Mood, ce dernier étant basé sur le \chi ^2 de Pearson, lui-même hautement influencé par la taille de l’échantillon, nous pouvons en déduire qu’il perd de son efficacité lorsque n \rightarrow \infty.

Nous proposons désormais de vérifier si le test de la médiane est sensible aux grands échantillons ou non.

Le tableau ci-dessous présente l’évolution des p-valeurs associées aux statistiques de test calculées sur plusieurs simulations dans le cas où les distributions sont différentes d’un groupe à l’autre pour K = 2.

addGlobalement, quelque soit la taille de l’échantillon, le test statistique rejette H_0, ce qui est en accords avec nos hypothèses.

Procédons à la même expérience mais cette fois-ci dans un cas où les distributions respectives à nos deux groupes ne devraient pas être statistiquement différentes. Le tableau ci-dessous présente ces résultats.

addJusqu’à N = 1 000 nous restons cohérent avec nos hypothèses, néanmoins nous voyons qu’à partir d’un échantillon de taille 10 000  le test rejette H_0  à tort. Nous voyons que même si le test de la médiane subit les effets des grands échantillons, il semble leur présenter une certaine résistance.

\bullet Annexe théorique:

Nous proposons la justification des formules de E[M] et V(M) pour le test de la médiane.

L’une des écritures de ce test est:

M_N = \frac{1}{n} \sum_{i = 1} ^n 1_{]0, + \infty[} (R_i - \frac{N + 1}{2}) = \frac{1}{2} \sum_{i = 1} ^n 1_{]0, + \infty[} (i - \frac{N + 1}{2}) \cdot Z_i

En posant M_N * = 2 M_N - 1, nous obtenons:

n \cdot M_N * = \# \lbrace R_i > \frac{N + 1}{2} \rbrace - \# \lbrace R_i < \frac{N + 1}{2} \brace

, qui est en réalité la statistique du test de rang LMP (tests localement les plus puissants) pour la double loi exponentielle. Par équivalence entre M_N et M_N *, nous en déduisons que le test de la médiane est une approximation du test de rang LMP pour ce type de loi.

Par conséquent, la loi de n \cdot M_N est une loi hypergéométrique dépendante de la parité de N.

Nous avons alors,

– pour N pair:

add– pourN impair:

addNous pouvons donc en déduire:

add\bullet Exemple:

Soit l’échantillon X,

add

Ci-dessous, le boxplot des distributions de X|_{g1} (en vert) et X|_{g2} (en rouge) permet de voir que visuellement les rangs intermédiaires correspondent au groupe 1 quand ceux les plus bas et les plus haut correspondent au groupe 2.

add

Visuellement, les distributions semblent différentes mais pas les médianes qui, part approximation, devraient être identiques.

Le test de Mood

Dans un premier temps, construisons le tableau suivant:

addLe calcul du \chi ^2 de Pearson de ce tableau nous donne une statistique de test égale à 0 et donc une p-valeur égale à 1 > 5 \%. Nous en déduisons que nous ne pouvons pas rejeter H_0 et que les médianes ne sont pas différentes.

Le test de la médiane:

Dans un premier temps temps, déterminons le vecteur des rangs associés à X|_{Y = 1}. Nous avons donc:

R = (7, 9, 10 , 15, 13, 11, 8, 6, 12, 14)

Calculons ensuite les différents éléments nécessaires à la statistique de test:

M = \sum_{i_1 = 1} ^{10} 1_{(R_{i_1} > \frac{20 + 1}{2})} = \sum_{i_1 = 1} ^{10} 1_{(R_{i_1} > 10.5)} = 0 + 0 + 0 + 1 + 1 + 1 + 0 + 0 + 1 + 1 = 5

E[M] = \frac{10}{2} = 5

V(M) = \frac{10 \times 10}{4 \times (20 - 1)} = \frac{100}{76} = 1.315789

Nous pouvons désormais calculer la statistique de test:

| Z | = | \frac{5 - 5}{\sqrt{1.315789}} | = | 0 | = 0

Nous obtenons alors une p-valeur égale à 1 > 5 \%. Nous en déduisons que nous ne pouvons pas rejeter H_0 et que les médianes ne sont pas différentes.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/npar1way_toc.htm

Package et fonction R:

med.test = function(BDD) {
 # Cette fonction exécute les 2 tests de la médiane, la colonne 1 doit contenir la variable réponse Y, la colonne 2 doit contenir la variable d’intérêt X

# Caractéristique de l’échantillon
biblio.Y = summary(as.factor(BDD[,1]))
n1 = biblio.Y[1]
n2 = biblio.Y[2]
n = n1 + n2
med = summary(BDD[,2])[3]

# Par la méthode du Chi2
M1 = sum(BDD[which(BDD[,1]==names(biblio.Y)[1]),2]>med)
M2 = sum(BDD[which(BDD[,1]==names(biblio.Y)[2]),2]>med)
T1 = c(M1,n1 – M1)
T2 = c(M2,n2 – M2)
if (n<=20) {
test = fisher.test(as.table(cbind(T1,T2)))
Z1 = « Fisher »
p1 = test$p.value
}
if (n>20) {
test = chisq.test(as.table(cbind(T1,T2)))
Z1 = test$statistic
p1 = test$p.value
}

# Par le score de Brown-Mood
R1 = rank(BDD[,2])[which(BDD[,1]==names(biblio.Y)[1])]
M = sum(R1 > (n + 1)/2)
if (n/2 == floor(n/2)) {
E = n1/2
V = n1*n2/(4*(n-1))
}
if (n/2 != floor(n/2)) {
E = n1*(n-1)/(2*n)
V = (n1*n2*(n+1))/(4*n^2)
}
Z2 = (M – E)/sqrt(V)
p2 = (1 – pnorm(abs(Z2),0,1))*2

# Edition des résultats
resultat = data.frame(Chi2_Fisher = c(Z1,p1),Score = c(Z2,p2))
row.names(resultat) = c(« Z », »p »)
return(resultat)

}

\bullet Bibliographie:

– Comparaison de populations, tests non paramètriques de Ricco Rakotomalala

– Méthodes et modèles en statistique non paramétrique – Exposé fondamentale de Philippe Capéraà et Bernard van Cutsem

– On median tests for linear hypotheses de G. W. Brown et A. M. Mood

– On the asymptotic efficiency of certain nonparametric two-sample tests de A. M. Mood