Le test du Chi2 de Cochran-Mantel-Haenszel

add

\bullet Présentation:

Publié en 1959 par Nathan Mantel, William Haenszel et basé sur les travaux de William Gemmel Cochran de 1954, le test du \chi^2 de Cochran-Mantel-Haenszel est une approche non paramétrique permettant de tester si « l’odds ration commun » associé à une succession de tableaux croisés dynamiques issue de variables qualitatives deux à deux appariées (X ^{t_1}, X ^{t_2}), (X ^{t_2}, X ^{t_3}), (X ^{t_3}, X ^{t_4}), \cdots , (X ^{t_{n - 2}}, X ^{t_{n - 1}}), (X ^{t_{n - 1}}, X ^{t_n}) à 2 modalités s’éloigne de 1 ou non. On rappel qu’une odds ratio égal à 1 implique une pente inexistante.

\bullet Le test:

Hypothèse d’utilisation: Variables qualitatives à 2 modalités et deux à deux appariées.

La statistique du test du \chi ^2 de Cochran-Mantel-Haenszel est:

\chi_{MH} ^2 = \frac{A ^2}{var(A)}

Où,

A = | \sum_{t = 1} ^T (C_{1,1} ^t - \frac{(C_{1,1} ^t + C_{1,2} ^t) \cdot (C_{1,1} ^t + C_{2,1} ^t)}{n_t}) | - \frac{1}{2}

A noter que le terme \frac{1}{2} correspond à la correction de continuité proposée par Mantel et Haenszel et très fortement conseillée lors de l’application de ce test.

Le croisement des variables (X ^t, X ^{t + 1}) donne le tableau suivant:

add

De plus, le coefficient C_{i,j} ^t correspond à la valeur incluse dans la cellule de la ligne i et de la colonne j du tableau croisé dynamique construit au temps t. Le temps t correspond, quand à lui, au croisement des variables N°t et t+1.

On relèvera également que n_t = C_{1,1} ^t + C_{1,2} ^t + C_{2,1} ^t + C_{2,2} ^t.

En outre, et même si le terme de temps semble abusif dans le cas de l’application de ce test, nous avons T = \sharp \lbrace \mbox{Variables} \rbrace - 1.

Enfin,

var(A) = \sum_{t = 1} ^T \frac{\sum_{t = 1} ^T (C_{1,1} ^t + C_{1,2} ^t) \cdot (C_{1,1} ^t + C_{2,1} ^t) \cdot (C_{1,2} ^t + C_{2,2} ^t) \cdot (C_{2,1} ^t + C_{2,2} ^t)}{n_t ^2 \cdot (n_t - 1)}

La statistique de test suit une loi du \chi ^2 à 1 degré de liberté et l’hypothèse H_0 est: « Le rapport des côtes commun ne diffère pas de 1« .

Ci-dessous le tableau de la loi du \chi ^2:

addTendance pour rejeter H_0:

Plus la statistique de test s’approche de 0 et plus on a de chance d’accepter H_0. En outre, cela revient à dire que:

| \sum_{t = 1} ^T [C_{1,1} ^t - \frac{(C_{1,1} ^t + C_{1,2} ^t) \cdot (C_{1,1} ^t + C_{2,1} ^t)}{n_t}] | ^2 \rightarrow 0

\Rightarrow \sum_{t = 1} ^T [n_t \cdot C_{1,1} ^t - (C_{1,1} ^t + C_{1,2} ^t) \cdot (C_{1,1} ^t + C_{2,1} ^t)] | \rightarrow 0

\Rightarrow \sum_{t = 1} ^T [(C_{1,1} ^t + C_{1,2} ^t + C_{2,1} ^t + C_{2,2} ^t) \cdot C_{1,1} ^t - (C_{1,1} ^t + C_{1,2} ^t) \cdot (C_{1,1} ^t + C_{2,1} ^t)] \rightarrow 0

\Rightarrow \sum_{t = 1} ^T [(C_{1,1} ^t) ^2 + C_{1,1} ^t \cdot C_{1,2} ^t + C_{1,1} ^t \cdot C_{2,1} ^t + C_{1,1} ^t \cdot C_{2,2} ^t - (C_{1,1} ^t) ^2 - C_{1,2} ^t \cdot C_{2,1} ^t - C_{1,2} ^t \cdot C_{1,1} ^t - C_{1,2} ^t \cdot C_{2,1} ^t] \rightarrow 0

\Rightarrow \sum_{t = 1} ^T [C_{1,1} ^t \cdot C_{2,2} ^t - C_{1,2} ^t \cdot C_{2,1} ^t] \rightarrow 0

\Rightarrow \forall t, C_{1,1} ^t \cdot C_{2,2} ^t \rightarrow C_{1,2} ^t \cdot C_{2,1} ^t ou inversement.

Trivialement, l’autre cas de figure est celui où l’on observe une évolution mais que cette dernière se compense dans le temps (par exemple: une chute du rapport des côtes progressive sur les premiers temps suivie proportionnellement d’une hausse, un effet cyclique voir sinusoïdale, etc), ainsi la somme finale converge vers 0.

En ce sens, le test de Cochran-Mantel-Haenszel est uniquement adapté à la détection d’une augmentation/diminution linéaire dans le temps du rapport des côtes.

Extension aux tableaux à K \geq2 modalités:

Le test de Cochran-Mantel-Haenszel est limité aux variables à deux modalités, J. Richard Landis, Eugene R. Heyman et Gary G. Koch ont proposé une extension du test aux cas à deux modalités ou plus. La formule générale du test devient alors:

T_{CMH} = G' \cdot V_{CMH} ^{-1} \cdot G

Où, en définissant T le nombre de temps possibles et en reprenant les notations pour le cas à deux modalités,

G = \sum_{t = 1} ^T G_t = \sum_{t = 1} ^T B_t \cdot (C ^t - n_t \cdot (p_{t.*}p_{t*.}))

V_{CMH} = \sum_{t = 1} ^T B_t \cdot V_{Gt} \cdot B_t '

⊗ correspondant au produit de Kronecker de formule:

Sans titreEn notant I_K matrice identité de rang K, J_M vecteur unitaire de taille M \times 1 et D_{\alpha} matrice diagonale d’éléments \alpha, on a alors,

B_t = [I_{R - 1}, - J_{R - 1}][I_{C - 1}, - J_{C - 1}]

V_{Gt} = \frac{n_t ^2}{n_t - 1} \cdot \lbrace (D_{p_{t.*}} - p_{t.*} \cdot p_{t*.}')(D_{p_{t.*}} - p_{t.*} \cdot p_{t*.}') \rbrace

Enfin, cette formule n’étant pas avare en notations et sous-notations, on concluera en précisant que p_{t.*} correspont au vecteur de \frac{\sum_i C_{i,j} ^t}{n_t}, \forall j et p_{t*.} au vecteur de \frac{\sum_j C_{i,j} ^t}{n_t}, \forall i.

\bullet Tendance lorsque n \longrightarrow \infty: 

Le test de Cochran-Mantel-Haenszel présente toutes les caractéristiques pour être un candidat impacté par la disgrâce des grands échantillons puisqu’il travaille directement sur les effectifs depuis les cellules des différents tableaux dynamiques crééent deux à deux. Si on retourne sur la formule, soit le numérateur A tend de manière incontrôlable vers 0 et on accèpte trop facilement le rejet de H_0 soit le dénominateur (la variance) tend vers \infty et le constat reste le même.

Si on se concentre sur le numérateur, on a vu dans l’étude de la tendance du rejet de H_0 que A peut se réécrire:

A = \sum_{t = 1} ^T \frac{C_{1,1} ^t \cdot C_{2,2} ^t - C_{1,2} ^t \cdot C_{2,1} ^t}{C_{1,1} ^t + C_{1,2} ^t + C_{2,1} ^t + C_{2,2} ^t}

Le terme C_{1,1} ^t \cdot C_{2,2} ^t - C_{1,2} ^t \cdot C_{2,1} ^t semble avoir plus de chance de se compenser et donc de limiter la convergence vers \infty alors que le terme C_{1,1} ^t + C_{1,2} ^t + C_{2,1} ^t + C_{2,2} ^t lui peut exploser très rapidement et faire converge A vers 0. D’autant plus que ce terme est élevé au carré par la suite.

Afin de conclure, prenons un exemple (on omettra la notation des modalités mais en comprendra qu’en ligne et colonne la première itération correspond aux modalités une des deux variables et en seconde itération à leur modalité deux),

addL’odds ratio commun (OR) calculé (selon la formule: OR_{MH} = \frac{\sum_t ^T \frac{C_{1,1} ^t \times C_{2,2} ^t}{n_t}}{\sum_t ^T \frac{C_{1,2} ^t \times C_{2,1} ^t}{n_t}}) donne: 1,054131, soit une pente qui n’évolue quasiment pas.

Ci-dessous, le résultat des tests en augmentant la taille de l’échantillon tout en conservant cette structure:

addL’OR ne change pas puisque nous conservons la même structure des données à coefficient multiplicateur global prés. On voit ainsi que pour les données initiales, on a une p-valeur de 1 qui est cohérente avec la valeur de notre OR. Lorsque l’on multiplie par 10 puis par 100 la p-valeur décroît mais ne franchit pas le seuil des 5\%. Néanmoins, après multiplication par 1 000, la p-valeur devient fortement significative, contredisant la valeur de notre OR qui reste proche de 1.

Nous voyons donc que le test de Cochran-Mantel-Haenszel est affecté par la taille de l’échantillon.

\bullet Annexe théorique: 

On présentera dans cette section une démonstration sommaire de l’estimateur de la variance utilisé dans le test de Cochran-Mantel-Haenszel.

En reprenant les notations déjà évoquées et en posant l’estimateur de l’odds ratio de Mantel-Haenszel \hat{\phi}_{MH}, R_h = \frac{C_{1,1} ^t C_{2,2} ^t}{n_t} et S_h = \frac{C_{1,2} ^t C_{2,1} ^t}{n_t}, on a l’estimator de la variance asymptotique de forme:

T var(\hat{\psi}_{MH}) = \frac{\frac{\sum_t \hat{v_t }(\hat{\psi}_{MH})}{T}}{(\sum_t \frac{S_t}{T}) ^2}

\hat{v_t} représente l’estimateur non biaisé de v(R_t - \phi \cdot S_t).

En posant N_{i,j} ^t effectif théorique de C_{i,j} ^t, P_i ^t = \frac{N_{i,.} ^t - N_{i,2} ^t}{N_{i,.} ^t}, Q_i ^t = 1 - P_i ^t = \frac{N_{i,2} ^t}{N_{i,.} ^t} et f_i ^t = \frac{N_{i,.} ^t - C_{i,.} ^t}{N_{i,.} ^t - 1}, on a:

var(R_t - \phi \cdot S_t) = \frac{C_{1,.} ^t \cdot C_{2,.} ^t}{n_t} \cdot [C_{2,.} ^t \cdot P_1 ^t \cdot Q_1 ^t \cdot f_1 ^t + C_{1,.} ^t \cdot P_2 ^t \cdot Q_2 ^t \cdot f_2 ^t \cdot \phi ^2]

= \frac{C_{1,.} ^t \cdot C_{2,.} ^t \cdot \phi}{n_t} \cdot [P_2 ^t \cdot (C_{2,.} ^t \cdot f_1 ^t + C_{1,.} ^t \cdot f_2 ^t \cdot \phi) - P_1 ^t \cdot P_2 ^t \cdot (C_{2,.} ^t \cdot f_1 ^t + C_{1,.} ^t \cdot f_2 ^t)]

= \Phi \cdot D_t

Avec,

D_t = \frac{C_{1,.} ^t \cdot C_{2,.} ^t}{n_t} \cdot (C_{2,1} ^t \cdot f_1 ^t + C_{1,1} ^t \cdot f_2 ^t) - \frac{C_{1,1} ^t \cdot C_{2,1} ^t}{n_t} \cdot (C_{2,.} ^t \cdot f_1 ^t + C_{1,.} ^t \cdot f_2 ^t)

En rappelant que w désigne les pondération et en posant p_i ^t = \frac{C_{i,1} ^t}{C_{i,.} ^t}, on en déduit,

var(\hat{\delta}_{MH}) = \frac{\sum_t w_t ^2 \cdot [var(\hat{p_1 ^t} + var(\hat{p_2 ^t})]}{(\sum_t w_t) ^2} = \frac{\sum_t w_t ^2 [\frac{p_1 ^t \cdot q_1 ^t}{C_{1,.} ^t} \cdot (\frac{N_{1,.} ^t - n_{1,.} ^t}{N_{1,.} ^t}) + \frac{p_2 ^t \cdot q_2 ^t}{C_{2,.} ^t} \cdot (\frac{N_{2,.} ^t - n_{2,.} ^t}{N_{2,.} ^t})]}{(\sum_t w_t) ^2}

, comme un estimateur de la variance sous le modèle hypergéométrique.

\bullet Exemple:

Pour l’illustration du test du \chi ^2 de Cochran-Mantel-Haenszel on se proposera de travailler directement sur les tableaux croisés dynamiques appariés deux à deux suivants:

add

Le calcul des Odds Ratios pour les différents tableaux croisés dynamiques aux quatre temps étudiés nous donne le graphe ci-dessous:

addL’Odds Ratio commun vaut:

OR_{MH} = \frac{\frac{6 \times 6}{20} + \frac{4 \times 5}{20} + \frac{5 \times 6}{20} + \frac{5 \times 7}{20}}{\frac{4 \times 4}{20} + \frac{5 \times 6}{20} + \frac{5 \times 4}{20} + \frac{3 \times 5}{20}} = \frac{\frac{121}{20}}{\frac{81}{20}} = \frac{6.05}{4.05} = 1.490148

Cette valeur marque un rapport de pente assez faible, appliquons le test afin de voir s’il se différencie significativement de 1 ou non.

On a alors au numérateur:

A ^2 = (| 6 - \frac{10 \times 10}{20} + 4 - \frac{10 \times 9}{20} + 5 - \frac{9 \times 10}{20} + 5 - \frac{10 \times 8}{20} | - \frac{1}{2}) ^2

= (|1 - 0.5 + 0.5 + 1| - \frac{1}{2}) ^2

= (2 - 0.5) ^2

= 1.5 ^2

= 2.25

Et au numérateur:

var(A) = \frac{10 \times 10 \times 10 \times 10 + 10 \times 9 \times 10 \times 11 + 9 \times 10 \times 11 \times 10 + 10 \times 8 \times 10 \times 12}{20 ^2 \times 19} = \frac{39400}{7600} = 5,184211

Par conséquent,

\chi_{CMH} ^2 = \frac{2,25}{5,184211} = 0.434001

Or si l’on se reporte à la table du \chi ^2 à 1 degré de liberté on trouve une p-valeur de 0.51. On en déduit donc que l’odds ratio commun calculé précédemment à partir des données de notre exemple ne s’éloigne pas de 1 au sens statistique du terme.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_freq_sect031.htm

Package et fonction R: https://stat.ethz.ch/R-manual/R-devel/library/stats/html/mantelhaen.test.html

\bullet Bibliographie:

– Statistical aspects of the analysis of data from retrospective studies of disease de Nathan Mantel et William Haenszel

– Adjusting the Mantel Haenszel Test Statistic and Odds Ratio for Cluster Sampling de Gilles Lamothe

– CochranMantelHaenszel Techniques – Applications Involving Epidemiologic Survey Data de Daniel B. Hall, Robert F. Woolson, William R. Clarke et Martha F. Jones

– Average Partial Association in Three-vay Contingency  Tables: a Review and Alternative Tests de J. Richard Landis, Eugene R. Heyman et Gary G. Koch

– Generalized Cochran-Mantel-Haenszel Tests Statistics for Correlated Categorical Data de Jie Zhang et Dennis D. Boos