Le test de tendance de Cochran-Armitage

add\bullet Présentation:

Publié dans une première version en 1954 par William Gemmell Cochran puis finalisé sous la forme que nous connaissons acutellement en 1955 par Peter Armitage, le test de tendance de Cochran-Armitage est une approche non paramétrique permettant de tester si deux variables qualitatives (X ^1, X ^2) à, respectivement, 2 et K modalités sont indépendantes.

Le test de tendance de Cochran-Armitage peut être vu comme une amélioration du test du \chi ^2 de Pearson prenant en compte la tendance générale de la liaison entre les deux variables testées. En ce sens, ce test est plus puissant quand la tendance suspectée est correctement paramétrée lors de son usage.

\bullet Le test:

Hypothèse préliminaire: Deux variables qualitatives à 2 et K modalités respectivement.

En visualisant le tableau issu du croisement de X ^1 et [/latex]X ^2[/latex] suivant:

addOù,

L_1 = \sum_{k = 1} ^K n_{1,k}

L_2 = \sum_{k = 1} ^K n_{2,k}

C_k = \sum_{l = 1} ^2 n_{k,l}

La statistique du test de tendance de Cochran-Armitage est alors:

T = \sum_{k = 1} ^K t_k (n_{1,k} \cdot L_2 - n_{2,k} \cdot L_1)

, avec les t_k, \forall k \in [1, K] représentant les pondérations de la fonction de tendance et étant des entiers prennant leur valeur dans [0, K - 1].

Sous l’hypothèse nulle H_0, nous avons E[T] = 0 et,

V(T) = \frac{L_1 \cdot L_2}{n} \cdot (\sum_{k = 1} ^K t_k ^2 C_k \cdot (N - C_k) - 2 \sum_{k = 1} ^{K - 1} \sum_{j = k + 1} ^K t_k \cdot t_j \cdot C_k \cdot C_k)

L’objet \frac{T}{\sqrt{V(T)}} suit alors une loi normale centrée-réduite et l’hypothèse H_0 est: « X ^1, X ^2 sont indépendant ».

Ci-dessous la table de la loi normale centrée-réduite.

add10Tendance pour le rejet de H_0:

Nous nous intéresserons au cas d’acception de H_0, soit le cas où:

\frac{T}{\sqrt{T}} \rightarrow 0

\Rightarrow T \rightarrow 0

\Rightarrow \sum_{k = 1} ^K t_k \cdot (N_{1,k} \cdot L_2 - N_{2,k} \dot L_1) \rightarrow 0

Les pondérations prennent toute leur importance car elles vont supprimer les effets qui pourraient se compenser (distribution en dents de scie par exemple, ou parabolique), d’où l’intérêt de les optimiser afin de pouvoir déterminer la configuration optimale pour l’usage du test de Cochran-Armitage. Les pondérations vont donc avoir pour rôle celui d’augmenter la puissance du test.

Enfin,

\frac{T}{\sqrt{T}} \rightarrow 0

\Rightarrow \forall k, N_{1,k} \cdot L_2 \rightarrow N_{2_k} \cdot L_1

\Rightarrow \forall k, N_{1,k} \rightarrow N_{2,k} et L_1 \rightarrow L_2

, ce qui correspond à une distribution aléatoire des données. Inversement, si \exists ! k tel que N_{1,k} \cdot L_2 >>>> N_{2,k} \cdot L_1 ou N_{2,k} \cdot L_1 >>>> N_{1,k} \cdot L_2 alors nous rejettons H_0. Ce qui revient à dire qu’il suffit d’un effet non aléatoire au sein de la distribution du croisement de X ^1, X ^2 pour que le test de Cochran-Armitage soit significatif.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous avons présenté le test de tendance de Cochran-Armitage comme une version améliorée du test de \chi ^2 de Pearson qui est très influencé par la taille d’échantillon.

Soit la simulation suivante d’un échantillon de taille n = 20:

addLe test de tendance de Cochran-Armitage nous donne une p-valeur de 0.811642 soit l’acception de H_0 comme nous pouvions nous y attendre. Désormais nous allons multiplier l’effectif tout en consevant la configuration de notre simulation:

n \times 10, p = 0.4510912

n \times 100, p = 0.0171683

n \times 1000, p < 0.0001

Le test de tendance de Cochran-Armitage est bien influencé, dans le mauvais sens du terme, par la taille d’échantillon.

\bullet Annexe théorique:

Nous proposons ici de justifier le résultat E[T] = 0.

Rappelons le théorème et la définition suivants,

Définition de l’espérances conditionnelles:

Soit deux variables aléatoires X ^1 réelle mais pas nécessairement et X ^2 qualitative.

On appelle espérance de X ^1 sachant X ^2 = x ^2 et on note E[X ^1 / X ^2 = x ^2] la quantité définie par,

E[X ^1 / X ^2 = x ^2] = \sum_{x ^2} x ^1 \cdot P (X ^1 = x ^1 / X ^2 = x ^2)

Théorème de l’espérance totale: E[X ^1] = E[E[X ^1 / X ^2]]

Qui se démontre assez trivialement grâce à la définition ci-dessus,

E[E[X ^1 / X ^2 = x ^2]] = \sum_{x ^2} E[X ^1 / X ^2 = x ^2] \cdot P (X ^2 = x ^2)

= \sum_{x ^2} (\sum_{x ^1} P(X ^1 = x ^1 / X ^2 = x ^2)) \cdot P (X ^2 = x ^2)

= \sum_{x ^2} \sum_{x ^1} P(X ^1 = x ^1 / X ^2 = x ^2) \cdot P (X ^2 = x ^2)

= \sum_{x ^2} \sum_{x ^1} x ^1 \cdot P(X ^2 = x ^2 / X ^1 = x ^1) \cdot P(X ^1 = x ^1)

= \sum_{x ^1} x ^1 P(X ^1 = x ^1) \cdot (\sum_{x ^2} P(X ^2 = x ^2 / X ^1 = x ^1))

= \sum_{x ^1} x ^1 \cdot P (X ^1 = x ^1)

= E[X ^1]

Fort de ces deux résultats, nous pouvons écrire que:

E[T] = E[E[T / L_1, L_2]]

Montrons désormais que E[T / L_1, L_2] = 0. Nous avons par définition:

E[T / L_1, L_2] = \sum_t t \cdot P(T = t / L_1, L_2)

Or, sous l’hypothèse nulle H_0 nous pouvons écrire,

P(T = 1 / L_1, L_2 = 1) = \cdots = P(T = 1 / L_1, L_2 = K) = C

Par conséquent,

E[T / L_1, L_2] = \sum_t t \cdot C = C \cdot \sum_t t = C \cdot 0 = 0

, puisque la statistique T est symétrique centrée en 0 car issue de la différence de combinaison des éléments n_{1,k}, n_{2,k} qui peuvent s’écrire eux-même comme des combinaisons dépendantes de l’effectif total n.

Nous avons donc: E[T] = E[E[T / L_1 ,L_2]] = E[0] = 0.

\bullet Exemple:

Soit les deux variables X ^1, X ^2 ci-dessous,

addCi-dessous, l’histogramme des effectifs croisés de X ^1, X ^2 permet de voir que visuellement le groupe A de la variable  X ^1 correspond généralement au groupe B de la variable X ^2 tandis que le groupe B de la variable  X ^1 correspond aux groupes A et C de la variable  X ^2.

addNous trouvons ci-dessous la table des effectifs croisés:

addCommençons par le calcul des effectifs marginaux:

C_1 = 1 + 5 = 6

C_2 = 7 + 0 = 7

C_3 = 2 + 5 = 7

R_1 = 1 + 7 + 2 = 10

R_2 = 5 + 0 + 5 = 10

Ensuite, fixons le vecteur de pondération suivant: t = (t_1 = 0, t_2 = 1, t_3 = 2).

La statistique de test vaut alors,

T = \sum_{k = 1} ^3 t_k \cdot (n_{1,k} \cdot L_2 - n_{2,k} \cdot L_1)

= 0 \times (n_{1,1} \times 10 - n_{2,1} \times 10) + 1 \times (n_{1,2} \times 10 - n_{2,2} \times 10) + 2 \times (n_{1,3} \times 10 - n_{2,3} \times 10)

= 1 \times (7 \times 10 - 0 \times 10) + 2 \times (2 \times 10 - 5 \times 10)

= 70 - 60

= 10

Il nous reste à calculer la variance de la statistique de test,

V(T) = \frac{10 \times 10}{20} \cdot (\sum_{k = 1} ^3 t_k ^2 \cdot C_k \cdot (20 - C_k) - 2 \times \sum_{k = 1} ^2 \sum_{j = k + 1} ^3 t_k \cdot t_j \cdot C_k \cdot C_j)

= 5 \times [0 ^2 \times 6 \times (20 - 6) + 1 ^2 \times 7 \times (20 - 7) + 2 ^2 \times 7 \times (20 - 7) - 2 \times (t_1 \cdot t_2 \cdot C_1 \cdot C_2 + t_1 \cdot t_3 \cdot C_1 \cdot C_3 + t_2 \cdot t_3 \cdot C_2 \cdot C_3)]

= 5 \times [91 + 364 - 2 \times (0 \times 1 \times 6 \times 7 + 0 \times 2 \times 6 \times 7 + 1 \times 2 \times 7 \times 7)]

= 5 \times [455 - 196]

 = 5 \times 259

= 1 295

Donc le rapport,

\frac{T}{\sqrt{V(T)}} = \frac{10}{\sqrt{1295}} = 0.277885

, qui selon la loi normale centrée-réduite donne une p-valeur égale à 0.7811 > 5 \% impliquant le rejet de H_0 contrairement à ce que nous pouvions attendre.

L’application des pondérations t_k prend alors toute son importance. En effet, dans notre exemple, elles ne sont pas choisies de manière optimale par rapport à la configuration des données. Ainsi, si nous prenons le vecteur de pondérations t = (t_1 = 0, t_2 = 2, t_3 = 1) permettant de mieux coller à l’aspect linéaire de la répartition des effectifs, nous trouvons que \frac{T}{\sqrt{V(T)}} = 3.0567, ce qui donne une p-valeur égale à 0.002238 < 5 \% et donc nous rejetons H_0.

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_freq_sect032.htm

Package et fonction R: http://finzi.psych.upenn.edu/library/DescTools/html/CochranArmitageTest.html

\bullet Bibliographie:

– Some methods for strengthening the common chi-squared tests de William Gemmell Cochran

– Tests for Linear Trends in Proportions and Frequencies de Peter Armitage

– Méthodes biostatistiques à la recherche clinique en concérologie de Andrew Kramar et Simone Mathoulin-Pélissier

– Probabilité, analyse des données et statistique de Gilbert Saporta