Le test de Mc Nemar

add

\bullet Présentation:

Publié en 1947 par Quinn Mc Nemar, le test de Mc Nemar est une approche non paramétrique permettant de tester la concordance inter-observateurs entre deux variables qualitatives binaires appariées X ^{t1}, X ^{t2}.

\bullet Le test:

Hypothèse préliminaire: deux variables qualitatives binaires appariées.

Afin de mieux expliciter le test de Mc Nemar, nous construisons le tableau de croisé associé aux deux variables appariées X ^{t_1}, X ^{t_2}:

add

La statistique de test vaut alors:

\chi_{MN} ^2 = \frac{(n_{1,2} - n_{2,1}) ^2}{n_{1,2} + n_{2,1}}

La correction de continuité peut s’appliquer au test de Mc Nemar (particulièrement recommandé lorsque n faible), il s’agit de modifier légèrement la formule précédente de la manière suivante:

\chi_{MN} ^2 = \frac{(| n_{1,2} - n_{2,1} | - 1) ^2}{n_{1,2} + n_{2,1}}

La statistique de test (avec ou sans correction) suit une loi du \chi ^2 à un degré de liberté et l’hypothèse H_0 est: « Concordance inter-observateurs / n_{1,2} = n_{2,1}« 

Ci-dessous le tableau de la loi du \chi ^2.

add

Tendance pour le rejet de H_0:

Plus la statistique de test \chi_{MN} ^2 est grande et plus nous avons de chance de rejeter H_0. Ce qui revient à dire,

\frac{(n_{1,2} - n_{2,1}) ^2}{n_{1,2} + n_{2,1}} \rightarrow \infty \Rightarrow n_{1,2} - n_{2,1} \rightarrow \infty ou n_{1,2} + n_{2,1} \rightarrow 0

Le second cas n’est pas d’intérêt car il implique que n est proche de zéro. Le premier cas impose que n_{1,2} >>>> n_{2,1} ou inversement, soit que pour l’une des deux modalités nous avons une discordance inter-observateurs importante. En effet, le tableau croisé synthétise l’information suivante: la diagonale n_{1,1}, n_{2,2} représente la concordance inter-observateurs tandis que la diagonale n_{1,2}, n_{2,1} représente la discordance inter-observateurs.

Un troisième cas est alors d’intérêt, celui où il n’y aurait que des discordances et donc n_{1,1}, n_{2,2} \rightarrow 0. Un tel cas ne rejettera pas H_0 contrairement à ce que nous pourrions croire. Pour comprendre cette particularité il faut assimiler le fait que la notion de discordance est à prendre en compte de manière générale. Ainsi, si tous les observateurs sont discordants alors en réalité ils sont concordants sur leurs discordances. D’où la subtilité du test de Mc Nemar de comparer ces deux termes et non uniquement l’un des deux.

Une autre lecture du test peut-être la suivante: savoir s’il y a plus d’observations ayant choisi la modalité une au temps t = 1 puis la modalité deux au temps t = 2 que l’inverse.

\bullet Tendance lorsque n \longrightarrow \infty:

Le test de Mc Nemar est directement influencé par les effectifs. En effet, la formule montre que nous élevons au carré la différence entre les éléments de la diagonale, aussi plus nous augmentons la taille de l’échantillon et plus cette différence sera marquée.

Nous présentons ci-dessous, l’exemple de départ:

add

Ci-dessous, l’évolution de la p-valeur au fur et à mesure que nous augmentons la taille globale de l’échantillon:

1 \times n, p = 1,

10 \times n, p = 0.5138,

100 \times n, p = 02313,

1 000 \times n, p < 0.0001,

10 000 \times n, p < 0.0001.

Nous constatons que le test de Mc Nemar est influencé par la taille de l’échantillon.

\bullet Annexe théorique:

Nous présentons ici la valeur de la statistique de test de Mc Nemar d’origine et le déroulement ayant conduit à la forme simplifiée et utilisée désormais.

L’idée du test de Mc Nemar est de s’appuyer sur le test du \chi ^2 de pearson. Nous avons alors,

\chi ^2 = \sum_{l = 1} ^{n_l} \sum_{c = 1} ^{n_c} \frac{(n_{l,c} - e_{l,c}) ^2}{e_{l,c}}

, avec e_{l,c} = \frac{n_{l,c} + n_{c,l}}{2}

Par conséquent nous avons,

\chi_{NM} ^2 = \frac{(n_{1,2} - \frac{n_{1,2} + n_{2,1}}{2}) ^2 + (n_{2,1} - \frac{n_{1,2} + n_{2,1}}{2}) ^2}{\frac{n_{1,2} + n_{2,1}}{2}}

= \frac{n_{1,2} ^2 - 2 n_{1,2} \frac{n_{1,2} + n_{2,1}}{2} + \frac{n_{1,2} ^2 + 2 n_{1,2} n_{2,1} + n_{2,1} ^2}{4} + n_{2,1} ^2 - 2 n_{2,1} \frac{n_{1,2} + n_{2,1}}{2} + \frac{n_{1,2} ^2 + 2 n_{1,2} n_{2,1} + n_{2,1} ^2}{4}}{\frac{n_{1,2} + n_{2,1}}{2}}

= \frac{n_{1,2} ^2 - n_{1,2} ^2 - 2 n_{1,2} n_{2,1} + \frac{n_{1,2} ^2 + 2 n_{1,2} n_{2,1} + n_{2,1} ^2}{2} + n_{2,1} ^2 - n_{2,1} ^2}{\frac{n_{1,2} + n_{2,1}}{2}}

= \frac{\frac{n_{1,2} ^2 + n_{2,1} ^2}{2} - \frac{2 n_{1,2} n_{2,1}}{2}}{\frac{n_{1,2} + n_{2,1}}{2}}

\Rightarrow \chi_{NM} ^2 = \frac{\frac{(n_{1,2} - n_{2,1}) ^2}{2}}{\frac{n_{1,2} + n_{2,1}}{2}} = \frac{(n_{1,2} - n_{2,1}) ^2}{n_{1,2} + n_{2,1}}

\bullet Exemple:

Soit l’échantillon suivant:

add

Nous construisons le tableau croisé associé à X ^{t_1}, X ^{t_2} et nous obtenons,

add

Nous voyons qu’il y a autant d’individus ayant choisi la modalité A à t = 1 puis la modalité B à t = 2 que d’individus qui ont fait l’inverse. Logiquement nous devrions avoir concordance inter-observateurs.

Nous appliquons le test de Mc Nemar. Pour cela, calculons en premier la statistique de test,

\chi_{MN} = \frac{(7 - 8) ^2}{7 + 8} = \frac{1}{15} = 0.066666667

En reportant cette valeur à la table de la loi du \chi ^2 à un degré de liberté, nous obtenons une p-valeur égale à 0.7963 >>>> 5 \%. Ce résultat valide notre déduction initiale, nous concluons à une concordance inter-observateurs.

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_freq_sect008.htm

Package et fonction R: https://stat.ethz.ch/R-manual/R-devel/library/stats/html/mcnemar.test.html

\bullet Bibliographie:

– Note on the sampling error of the difference between correlated proportions or percentages de Quinn Mc Nemar

– Probabilités, analyse des données et statistique de Gilbert Saporta