Le test de Bhapkar

add.png

\bullet Présentation:

Construit en 1966 par V. P. Bhapkar, le test de Bhapkar est une approche non  paramétrique permettant de tester la concordance inter-observateurs de deux variables qualitatives  appariées X ^{t_1}, X ^{t_2} à L \geq 2 modalités.

Il peut-être vu comme une alternative plus puissante du test de Stuart-Maxwell, qui est lui-même une extension au test de Mc Nemar.

\bullet Le test:

Hypothèse préliminaire: Deux variables qualitatives appariées à L \geq 2 modalités.

Afin d’avoir une meilleure visualisation de la formule de la statistique de test de Bhapkar, passons par le tableau de contingence construit à partir du croisement des deux variables appariées X ^{t_1} , X ^{t_2}:

add

Nous noterons n_{i,j} l’effectif croisé des individus ayant choisi la modalité i à t_1 et la modalité j à t_2 parmi les L modalités présentes.

La première étape est la transformation du tableau des effectifs croisés en tableau des fréquences absolues où chaque cellule se détermine par:

\forall i, j \in [1, L]; f_{i, j} = \frac{n_{i, j}}{n}

Ensuite, en seconde étape, il faut calculer le vecteur d’écart des fréquences marginales:

D = (\sum_{k = 1} ^L (f_{1,k} - f_{k,1}), \cdots,\sum_{k = 1} ^L (f_{L-1,k} - f_{k,L-1}))

Le vecteur D est de taille (L-1) \times 1 car L-1 éléments suffisent étant donné la relation liant les L valeurs du tableau croisé (en effet, la somme des fréquences d’une ligne ou d’une colonne au même indice sont égaux et valent 1).

La troisième et dernière étape de calcul consiste à déterminer la matrice de variance-covariance B au travers des formules suivantes:

– Pour les éléments diagonaux:

b_{i,i} = b_{j,j} = \sum_{k = 1} ^L f_{i,k} + \sum_{k = 1} ^L f_{k,i} - 2 \times f_{i,i} - (\sum_{k = 1} ^L f_{i,k} - \sum_{k = 1} ^L f_{k,i})^2

– Pour les éléments non diagonaux:

b_{i,j} = -(f_{i,j} + f_{j,i}) - (\sum_{k = 1} ^L f_{i,k} - \sum_{k = 1} ^L f_{k,i}) \times (\sum_{k = 1} ^L f_{j,k} - \sum_{k = 1} ^L f_{k,j})

La statistique du test de Bhapkar est alors:

\chi_B ^2 = n D^t B ^{-1} D

Elle suit une loi du \chi ^2 à (L - 1) degrés de liberté et l’hypothèse H_0 est: « Concordance inter-observateurs / \pi_{1,.} = \pi_{.,1}, \cdots, \pi_{L,.} = \pi_{.,L}« .

Ci-dessous le tableau de la loi du \chi ^2.

add

Tendance pour le rejet de H_0 :

Plus la statistique de test est grande et plus nous avons de chance de rejeter H_0. Intéressons-nous au cas inverse, nous avons alors:

\chi_B ^2 = n D ^t B ^{-1} D \rightarrow 0

Dans le cas d’une distribution aléatoire, le vecteur D converge vers 0 car fruit des différences f_{i,k} - f_{k,j} des éléments des colonnes et des lignes pour i = j, \forall i,j fixé, ce qui implique que \chi_B ^2 \rightarrow 0. Parallèlement, B devient de plus en plus difficile à inverser et donc converge vers \infty.

A noter le cas idéalement aléatoire où tous les éléments du tableau croisé de X ^{t_1}, X ^{t_2} sont égaux, ce qui implique que B n’est pas inversible.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous nous proposons d’étudier ici la robustesse du test de Bhapkar au fur et à mesure que n croît. Soit la simulation suivante:

add

Observons l’évolution de la p-valeur tandis que nous multiplions les effectifs et que la statistique de test reste inchangée:

1 \times n, p = 0.637

10 \times n, p = 0.136

100 \times n, p < 0.0001

1 000 \times n, p < 0.0001

10 000 \times n, p < 0.0001

Le test de Bhapkar est influencé par la taille d’échantillon comme nous pouvons le voir et plus nous augmentons n plus nous avons de chance de rejeter H_0 à tort.

 \bullet Annexe théorique:

Nous présentons ici une justification de l’équivalence entre le test de Bhapkar et celui de Mc Nemar dans le cas où L = 2. Rappelons la formule de la statistique de test de Mc Nemar:

\chi_{MN} ^2 = \frac{(n_{1,2} - n_{2,1}) ^2}{n_{1,2} + n_{2,1}}

Dans notre cas, nous avons pour la statistique de test de Bhapkar,

D = D_1 = \sum_{k = 1} ^2 (f_{1,k} - f_{k,1}) = f_{1,2} - f_{2,1} = \frac{n_{1,2}}{n} - \frac{n_{2,1}}{n}

B = B_{1,1} = \sum_{k = 1} ^2 f_{1,k} + \sum_{k = 1} ^2 f_{k,1} - 2 f_{1,1} - (\sum_{k = 1} ^2 f_{1,k} - \sum_{k = 1} ^2 f_{k,1}) ^2

= f_{1,1} + f_{1,2} + f_{1,1} + f_{2,1} - 2 f_{1,1} - (f_{1,1} + f_{1,2} - f_{1,1} - f_{2,1}) ^2

= f_{1,2} + f_{2,1} - (f_{1,2} - f_{2,1}) ^2

= \frac{n_{1,2}}{n} + \frac{n_{2,1}}{n} - (\frac{n_{1,2}}{n} - \frac{n_{2,1}}{n}) ^2

Par conséquent,

\chi_B ^2 = n D ^T B ^{-1} D = n \frac{D ^2}{B} = n \frac{(\frac{n_{1,2}}{n} - \frac{n_{2,1}}{n}) ^2}{\frac{n_{1,2}}{n} + \frac{n_{2,1}}{n} - (\frac{n_{1,2}}{n} - \frac{n_{2,1}}{n}) ^2}

= n \cdot \frac{1}{n ^2} \cdot n \cdot \frac{(n_{1,2} - n_{2,1}) ^2}{(n_{1,2} + n_{2,1}) - \frac{(n_{1,2} - n_{2,1}) ^2}{n}}

 = \frac{(n_{1,2} - n_{2,1}) ^2}{n_{1,2} + n_{2,1}} \cdot \frac{1}{1 - \frac{\frac{(n_{1,2} - n_{2,1}) ^2}{n_{1,2} + n_{2,1}}}{n}} = \frac{\chi_{MN} ^2}{1 - \frac{\chi_{NM} ^2}{n}}

Notons que dans cette configuration nous avons également le fait que \chi_{NM} ^2 = \chi_{SM} ^2, la statistique de test de Stuart-Maxwell. Nous pouvons en déduire que,

\chi_B ^2 = \frac{\chi_{SM} ^2}{1 - \frac{\chi_{SM} ^2}{n}}

Nous ne le démontrerons pas, mais cette dernière égalité est en réalité vrai quelque soit le nombre de modalité L.

\bullet Exemple:

Soit les deux variables appariées X_{t_1}, X_{t_2} suivantes:

add

L’histogramme superposé ci-dessous montre bien qu’hormis les individus qui ont choisi la modalité 2, tous les autres changent de modalités entre les deux temps  t_1 et t_2.

addCommençons par construire le tableau des effectifs croisés entre les deux variables appariées:

add

Appliquons les différentes phases de calcul de la statistique de test de Bhapkar.

Dans un premier temps, nous calculons le tableau des fréquences absolues en divisant le tableau croisé retenu par n = 20:

add

Pour la seconde étape, nous devons calculer le vecteur D de taille (L - 1) \times 1 = 2 \times 1,

D = (\sum_{k = 1} ^3 (f_{1,k} - f_{k,1}), \sum_{k = 1} ^3 (f_{2,k} - f_{k,2}))

= (f_{1,1} - f_{1,1} + f_{1,2} - f_{2,1} + f_{1,3} - f_{3,1}, f_{2,1} - f_{1,2} + f_{2,2} - f_{2,2} + f_{2,3} - f_{3,2})

= (0.05 - 0.15 + 0.20 - 0.15, 0.15 - 0.05 + 0 - 0.1)

= (0.05, 0)

Enfin, la troisième phase nécessaire avant de pouvoir appliquer la formule de la statistique de test de Bhapkar, est le calcul de la matrice de variance-covariance B, de taille (L - 1) \times (L - 1) = 2 \times 2,

B_{1,1} = \sum_{k = 1} ^3 f_{1,k} + \sum_{k = 1} ^3 f_{k,1} - 2 \times f_{1,1} - (\sum_{k = 1} ^3 f_{1,k} - \sum_{k = 1} ^3 f_{k,1}) ^2

= (f_{1,1} + f_{1,2} + f_{1,3}) + (f_{1,1} + f_{2,1} + f_{3,1}) - 2 \times f_{1,1} - [(f_{1,1} + f_{1,2} + f_{1,3}) - (f_{1,1} + f_{2,1} + f_{3,1})] ^2

= 0.05 + 0.2 + 0.15 + 0.05 - (0.05 + 0.2 - 0.15 - 0.05) ^2

= 0.45 - 0.15 ^2

= 0.4475

B_{2,2} = (f_{2,1} + f_{2,2} + f_{2,3}) + (f_{1,2} + f_{2,2} + f_{3,2}) - 2 \times f_{2,2} - [(f_{2,1} + f_{2,2} + f_{2,3}) - (f_{1,2} + f_{2,2} + f_{3,2})] ^2

= 0.15 + 0 + 0.05 + 0.1 - (0.15 + 0 - 0.05 - 0.1) ^2

= 0.3 - 0 ^2

= 0.3

B_{1,2} = B_{2,1} = - (f_{1,2} + f_{2,1}) - (\sum_{k = 1} ^3 f_{1,k} - \sum_{k = 1} ^3 f_{k,1}) \times (\sum_{k = 1} ^3 f_{2,k} - \sum_{k = 3} f_{k,2})

= - (f_{1,2} + f_{2,1}) - [(f_{1,1} + f_{1,2} + f_{1,3}) - (f_{1,1} + f_{2,1} + f_{3,1})] \times [(f_{2,1} + f_{2,2} + f_{2,3}) - (f_{1,2} + f_{2,2} + f_{3,2})]

= - (0.05 + 0.15) - [0.05 + 0.20 - 0.15 - 0.05] \times [0.15 + 0 - 0.05 - 0.1]

= -0.20 - 0.05 \times 0

= -0.20

Maintenant que nous avons tous les éléments en main, calculons la statistique de test de Bhapkar,

\chi_B ^2 = 20 \times (0.05, 0) \times \begin{pmatrix} 0.4475 & -0.2 \\ -0.2 & 0.3 \end{pmatrix} ^{-1} \times (0.05, 0) = 0.1591512

En reportant cette valeur à la table de la loi du \chi ^2 à L - 1 = 3 - 1 = 2 degrés de liberté, nous obtenons p = 0.0764918 >>>> 5 \%. Nous en concluons que nous ne pouvons rejeter H_0 et qu’il y a concordance inter-observateurs.

 \bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_catmod_sect046.htm

Package et fonction R: http://www.inside-r.org/packages/cran/irr/docs/bhapkar

\bullet Bibliographie:

– Comparaison de population, tests non paramétrique de Ricco Rakotomalala

– A note on the equivalence of two test criteria for hypotheses in categorical data de V. P. Bhapkar.