Le test de Stuart-Maxwell

480px-Professor_Alan_Stuart,_c1979\bullet Présentation:

Né suite aux travaux de Alan Stuart en 1955, le test de Stuart-Maxwell est une approche non paramétrique permettant de tester la concordance inter-observateurs pour deux variables qualitatives appariées X ^{t_1} , X ^{t_2} à L \geq 2 modalités.

Il peut-être vu, avec le test de Bhapkar, comme une généralisation du test de Mc Nemar dont il est équivalent (si nous n’appliquons pas la correction de continuité de Yates) lorsque L = 2.

\bullet Le test:

Hypothèse préliminaire: Deux variables qualitatives appariées à L \geq 2 modalités.

Afin d’avoir une meilleure visualisation de la formule de la statistique de test de Stuart-Maxwell, passons par le tableau de contingence construit à partir du croisement des deux variables appariées X ^{t_1} , X ^{t_2}:

add

Nous noterons n_{i,j} l’effectif croisé des individus ayant choisi la modalité i à t_1 et la modalité j à t_2 parmi les L modalités présentes.

La première étape pour le calcul de la statistique de test de Stuart-Maxwell est de supprimer les lignes et colonnes tel que i = j et dont les effectifs marginaux sont similaires. L’objectif étant de faciliter l’inversion de la matrice de variance-covariance intervenant plus tard. Le tableau de taille L \times L devient alors de taille L' \times L'L = L' si aucun cas décrit ci-dessus n’est présent.

La seconde étape est la transformation du tableau des effectifs croisés en tableau des fréquences absolues où chaque cellule se détermine par:

\forall i, j \in [1, L']; f_{i, j} = \frac{n_{i, j}}{n}

Ensuite, en troisième étape, il faut calculer le vecteur d’écart des fréquences marginales:

D = (\sum_{k = 1} ^{L'} (f_{1,k} - f_{k,1}), \cdots,\sum_{k = 1} ^{L'} (f_{L'-1,k} - f_{k,L'-1}))

Le vecteur D est de taille (L'-1) \times 1 car L'-1 éléments suffisent étant donné la relation liant les L' valeurs du tableau croisé (en effet, la somme des fréquences d’une ligne ou d’une colonne au même indice sont égaux et valent 1).

La quatrième et dernière étape de calcul consiste à déterminer la matrice de variance-covariance S au travers des formules suivantes:

– Pour les éléments diagonaux:

S_{i,i} = S_{j,j} = \sum_{k = 1} ^{L'} f_{i,k} + \sum_{k = 1} ^{L'} f_{k,i} - 2 \times f_{i,i}

– Pour les éléments non diagonaux:

S_{i,j} = -(f_{i,j} + f_{j,i})

La statistique du test de Stuart-Maxwell est alors:

\chi_{SM} ^2 = n D^t S ^{-1} D

Elle suit une loi du \chi ^2 à (L'-1) degrés de liberté et l’hypothèse H_0 est: « Concordance inter-observateurs / \pi_{1,.} = \pi_{.,1}, \cdots, \pi_{L,.} = \pi_{.,L}« .

Ci-dessous le tableau de la loi du \chi ^2.

add

Tendance pour le rejet de H_0 :

Plus la statistique de test est grande et plus nous avons de chance de rejeter H_0. Intéressons-nous au cas inverse, nous avons alors:

\chi_{SM} ^2 = n D ^t S ^{-1} D \rightarrow 0

Dans le cas d’une distribution aléatoire, le vecteur D converge vers 0 car fruit des différences f_{i,k} - f_{k,j} des éléments des colonnes et des lignes pour i = j, \forall i,j fixé, ce qui implique que \chi_{SM} ^2 \rightarrow 0. Parallèlement, S devient de plus en plus difficile à inverser et donc converge vers \infty.

A noter le cas idéalement aléatoire où tous les éléments du tableau croisé de X ^{t_1}, X ^{t_2} sont égaux, ce qui implique que S n’est pas inversible.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous nous proposons d’étudier ici la robustesse du test de Stuart-Maxwell au fur et à mesure que n croît. Soit la simulation suivante:

addObservons l’évolution de la p-valeur tandis que nous multiplions les effectifs et que la statistique de test reste inchangée:

1 \times n, p = 0.637

10 \times n, p = 0.136

100 \times n, p < 0.0001

1 000 \times n, p < 0.0001

10 000 \times n, p < 0.0001

Le test de Stuart-Maxwell est influencé par la taille d’échantillon comme nous pouvons le voir et plus nous augmentons n plus nous avons de chance de rejeter H_0 à tort.

\bullet Annexe théorique:

Nous présentons ici une justification de l’équivalence entre le test de Mc Nemar et celui de Stuart-Maxwell dans le cas où L = 2. Rappelons la formule de la statistique de test de Mc Nemar:

\chi_{McNemar} ^2 = \frac{(n_{1,2} - n_{2,1}) ^2}{n_{1,2} + n_{2,1}}

Dans notre cas, nous avons pour la statistique de test de Stuart-Maxwell,

D = D_1 = \sum_{k = 1} ^2 (f_{1,k} - f_{k,1}) = f_{1,2} - f_{2,1} = \frac{n_{1,2}}{n} - \frac{n_{2,1}}{n}

S = S_{1,1} = \sum_{k = 1} ^2 f_{1,k} + \sum_{k = 1} ^2 f_{k,1} - 2 f_{1,1}

= f_{1,1} + f_{1,2} + f_{1,1} + f_{2,1} - 2 f_{1,1}

= f_{1,2} + f_{2,1} + 2 f_{1,1} - 2 f_{1,1}

= \frac{n_{1,2}}{n} + \frac{n_{2,1}}{n}

Par conséquent,

\chi_{SM} ^2 = n D ^T S ^{-1} D = n \frac{D ^2}{S} = n \frac{(\frac{n_{1,2}}{n} - \frac{n_{2,1}}{n}) ^2}{\frac{n_{1,2}}{n} + \frac{n_{2,1}}{n}}

= n \cdot n \cdot \frac{1}{n ^2} \cdot \frac{(n_{1,2} - n_{2,1}) ^2}{n_{1,2} + n_{2,1}}

 = \frac{(n_{1,2} - n_{2,1}) ^2}{n_{1,2} + n_{2,1}} = \chi_{McNemar} ^2

\bullet Exemple:

Soit les deux variables appariées X_{t_1}, X_{t_2} suivantes:

addL’histogramme superposé ci-dessous montre bien qu’hormis les individus qui ont choisi la modalité 2, tous les autres changent de modalités entre les deux temps  t_1 et t_2.

addCommençons par construire le tableau des effectifs croisés entre les deux variables appariées:

addAppliquons les différentes phases de calcul de la statistique de test de Stuart-Maxwell.

Dans un premier temps, nous remarquons que pour i = j = 1 et i = j = 3 les effectifs marginaux sont différents. Cependant pour i = j = 2 ce n’est pas le cas, la somme en ligne et en colonne donne:

\sum_{k = 1} ^3 n_{2,k} = 3 + 5 + 0 = 8

\sum_{k = 1} ^3 n_{k,2} = 1 + 5 + 2 = 8

Par conséquent, nous pouvons supprimer la colonne et la ligne N°2 du tableau pour la suite des calculs.

Ensuite, nous calculons le tableau des fréquences absolues en divisant le tableau croisé retenu par n = 20:

addEt donc, L' = L - 1 = 3 - 1 = 2.

Pour la troisième étape, nous devons calculer le vecteur D de taille (L' - 1) \times 1 = 1 \times 1,

D = D_1 = \sum_{k = 1} ^2 (f_{1,k} - f_{k,1})

= (f_{1,1} - f_{1,1}) + (f_{1,2} - f_{2,1})

= 0 + (0.05 - 0.2)

= - 0.15

Enfin, dernière phase nécessaire avant de pouvoir appliquer la formule de la statistique de test de Stuart-Maxwell, est le calcul de la matrice de variance-covariance S, de taille (L' - 1) \times (L' - 1) = 1 \times 1,

S = S_{1,1} = \sum_{k = 1} ^2 f_{1,k} + \sum_{k = 1} ^2 f_{k,1} - 2 \times f_{1,1}

= (0.1 + 0.2) + (0.1 + 0.15) - 2 \times 0.1

= 0.3 + 0.15 - 0.2

= 0.25

Maintenant que nous avons tous les éléments en main, calculons la statistique de test de Stuart-Maxwell,

\chi_{SM} ^2 = 20 \times (-0.15) \times \frac{1}{0.25} \times (-0.15) = 1.8

En reportant cette valeur à la table de la loi du \chi ^2 à L' - 1 = 2 - 1 = 1 degré de liberté, nous obtenons p = 0.18 >>>> 5 \%. Nous en concluons que nous ne pouvons rejeter H_0 et qu’il y a concordance inter-observateurs.

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_catmod_sect001.htm

Package et fonction R: http://finzi.psych.upenn.edu/library/irr/html/stuart.maxwell.html

\bullet Bibliographie:

– Comparaison de population, tests non paramétrique de Ricco Rakotomalala

A test for homogeneity of the marginal distributions in a two-way classification de Alan Stuart