Le test Q de Cochran

add

\bullet Présentation:

Né suite aux travaux de William Gemmell Cochran en 1950, le test Q de Cochran est une approche non paramétrique permettant de tester si plusieurs variables qualitatives binaires appariées X ^1, \cdots, X ^T sont distribuées selon les même proportions.

Le test Q de Cochran peut-être vu comme une généralisation du test de Mc Nemar.

\bullet Le test:

Hypothèse préliminaire: Variables qualitatives binaires appariées.

La statistique de test Q de Cochran est:

Q = (T - 1) \frac{T \sum_{t = 1} ^T (C ^t) ^2 - S ^2}{T \sum_{i = 1} ^n  L_i - \sum_{i = 1} ^n L_i ^2}

Avec,

C ^t = \sum_{i = 1} ^n X_i ^t,

L_i = \sum_{t = 1} ^T X_i ^t,

S = \sum_{i = 1} ^n \sum_{t = 1} ^T X_i ^t.

Elle suit une loi du \chi ^2 à (T - 1) degrés de liberté et l’hypothèse H_0 est: « Le temps T n’a pas d’influence sur X / \pi_1 = \cdots = \pi_T« .

Ci-dessous le tableau de la loi du \chi ^2.

addTendance pour le rejet de H_0:

Plus la statistique de test Q est grande et plus nous avons de chance de rejeter H_0. Ce qui revient à dire que,

Q \rightarrow \infty

\Rightarrow (T - 1) \frac{T \sum_{t = 1} ^T (C ^t) ^2 - S ^2}{T \sum_{i = 1} ^n L_i - \sum_{i = 1} ^n L_i ^2} \rightarrow \infty

\Rightarrow T \sum_{t = 1} ^T (C ^t) ^2 - S ^2 \rightarrow \infty

\Rightarrow T \sum_{t = 1} ^T (C ^t) ^2 >>>>> S ^2

Si nous appliquons l’inégalité triangulaire, nous avons par définition que,

S ^2 = (\sum_{t = 1} ^T \sum_{i = 1} ^n X_i ^t) ^2 \leq \sum_{t = 1} ^T \sum_{i = 1} ^n (X_i ^t) ^2 = \sum_{t = 1} ^T (C ^t) ^2

Il y a égalité dans le cas où il n’y a pas d’influence de T sur X puisque dans cette situation nous aurions,

C ^1 = \cdots = C ^T

 \Rightarrow \sum_{t = 1} ^T (C ^t) ^2 = T \cdot (C ^1) ^2 et S ^2 = (\sum_{t = 1} ^T C ^t) ^2 = (T C ^1) ^2 = T ^2 (C ^1) ^2

\Rightarrow T \cdot T (C ^1) ^2 - T ^2 (C ^1) ^2 = 0

Dans le cas inverse, la somme des éléments au carré est nettement supérieure à celle au carré des éléments et le numérateur tend vers l’infini.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous proposons ici de vérifier si le test Q de Cochran est sensible aux grands échantillons ou non.

Le tableau ci-dessous présente l’évolution des p-valeurs associées aux statistiques de test calculées sur plusieurs simulations dans le cas où les proportions sont différentes d’un temps à l’autre.

add

Globalement, quelque soit la taille de l’échantillon, le test statistique rejette H_0, ce qui est en accords avec nos hypothèses.

Procédons à la même expérience mais cette fois-ci dans un cas où les différentes proportions ne devraient pas être statistiquement différentes d’un traitement à l’autre. Le tableau ci-dessous présente ces résultats.

add

Jusqu’à N = 100 nous restons cohérent avec nos hypothèses. Cependant nous voyons qu’au delà de ce seuil, le test rejette H_0 à tort.

Nous en déduisons que le test Q de Cochran est influencé par la taille de l’échantillon.

\bullet Annexe théorique:

Simplification du Q de Cochran lorsque T = 2

En utilisant la forme d’origine de Q suivante,

Q = (T - 1) \frac{T \sum_{t = 1} ^T (C ^t - \overline{C})}{T(\sum_{i = 1} ^n L_i - \sum_{i  = 1} ^n L_i ^2)}

Si T = 2 alors,

C ^1 = \sharp \lbrace X ^1 = 1 \& X ^2 = 0 \rbrace + \sharp \lbrace X ^1 = 1 \& X ^2 = 1 \rbrace = c + d

C ^2 = \sharp \lbrace X ^1 = 0 \& X ^2 = 1 \rbrace + \sharp \lbrace X ^1 = 1 \& X ^2 = 1 \rbrace = b + d

\sum_{i = 1} ^n L_i = b + c + 2 d

\sum_{i = 1} ^n L_i ^2 = b + c + 4 d

Par conséquent,

Q = \frac{2 (3 - 1) \frac{1}{2} (C ^1 - C ^2) ^2}{2 (b + c + 2 d) - (b + c + 4 d)} = \frac{(b - c) ^2}{b + c}

Comparaison de Q avec le test du \chi ^2 de Pearson

Si nous reprenons les notations par simplicité et les appliquons à la formule du test du \chi ^2 de Pearson quand les échantillons sont indépendants, nous avons,

\chi ^2 = \frac{\sum_{t = 1} ^T (C ^t - \overline{C}) ^2}{n \frac{\overline{L}}{T}(1 - \frac{\overline{L}}{T})}

Nous avons alors,

\sum_{i = 1} ^n L_i (1 - \frac{L_i}{T}) >/=/< \frac{(T - 1) n \overline{L}}{T} (1 - \frac{\overline{L}}{T})

Or,

\overline{L} = \frac{\sum_{i = 1} ^n L_i}{n} \Rightarrow \sum_{i = 1} ^n L_i = n \overline{L}

Nous avons donc,

\sum_{i = 1} L_i (1 - \frac{L_i}{T}) = n \overline{L} (1 - \frac{\overline{L}}{T}) - \frac{\sum_{i = 1} ^n (L_i - \overline{L}) ^2}{T} >/=/< \frac{(T - 1) n \overline{L}}{T} (1 - \frac{\overline{L}}{T})

\Rightarrow n \overline{L} (1 - \frac{\overline{L}}{T}) >/=/< \sum_{i = 1} (L_i - \overline{L}) ^2

Sous l’hypothèse H_0, nous avons,

\chi_n ^2 = \frac{\sum_{i = 1} ^n (L_i - \overline{L}) ^2}{\overline{L} (1 - \frac{\overline{L}}{T})}

, avec n - 1 degrés de liberté.

L’égalité est alors satisfaite quand la valeur du \chi_n ^2 est égale à la valeur attendue n-1.

\bullet Exemple:

Ci-dessous l’échantillon considéré pour notre exemple.

add

Nous avons donc, X variable binaire mesurée sur 5 temps.

La figure ci-dessous donne une représentation graphique de l’évolution des proportions en fonction des cinq temps,

add

Nous voyons que les parts de 1, 0 évoluent peu finalement d’un temps à l’autre, marquant là probablement une non influence du temps T sur X. Prouvons le statistiquement.

Dans un premier temps, calculons les effectifs marginaux. En ligne,

L_1 = 0, L_2 = 0, L_3 = 0, \cdots, L_{18} = 4, L_{19} = 4, L_{20} = 4

Et en colonne,

C ^1 = 10, C ^2 = 12, C ^3 = 8, C ^4 = 11, C ^5 = 12

Nous pouvons désormais calculer la valeur au dénominateur du Q de Cochran. Nous avons,

5 \times \sum_{i = 1} ^{20} L_i - \sum_{i = 1} ^{20} (L_i) ^2

= 5 \times (0 + \cdots + 4)  - (0 ^2 + \cdots + 4 ^2)

= 5 \times 53 - 193

= 265 - 193

= 72

Calculons maintenant le numérateur du Q de Cochran. Nous avons,

5 \times \sum_{t = 1} ^5 (C ^t) ^2 - (\sum_{t = 1} ^5 C ^t) ^2

= 5 \times (10 ^2 + 12 ^2 + 8 ^2 + 11 ^2 + 12 ^2) ^2 - (10 + 12 + 8 + 11 +12) ^2

= 5 \times 573 - 53 ^2

= 2865 - 2809

= 56

Par conséquent,

Q = (5 - 1) \times \frac{56}{72} = 4 \times 0.7777778 = 3.1111111

Si nous reportons cette valeur à la table de la loi du \chi ^2 pour 5 - 1 = 4 degrés de liberté, nous obtenons une p-valeur de 0.5394. Par conséquent nous ne pouvons rejeter H_0 et ne pouvons en déduire une influence du temps T sur X.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_freq_sect034.htm

Package et fonction R: http://www.inside-r.org/packages/cran/CVST/docs/cochranq.test

\bullet Bibliographie:

– The comparison of percentages in matched samples de William Gemmell Cochran

– Comparaison de populations, tests non paramétriques de Ricco Rakotomalala