Le test C de Cochran

add.png

\bullet Présentation:

Publié en 1941 suite aux travaux de William Gemmell Cochran, le test C de Cochran est une approche paramétrique permettant de tester, pour X variable continue et Y variable polychotomique, si les sous-échantillons de X restreint aux K de Y, X|_{g1}, \cdots, X|_{gK} qui suivent une loi normale, ont même variance.

Initialement le test C de Cochran a été conçu dans un objectif de détection des outliers au travers d’une étude des variances, cependant l’approche sur laquelle il se base fait qu’il est rentré au fur et à mesure de son utilisation dans la catégorie des tests de variance à l’instar de ceux de Levene, Bartlett, Brown-Forsythe, etc.

\bullet Le test:

Hypothèse préliminaire: X variable continue suivant une loi normale et Y variable polychotomique à K \geq 2 modalités.

La statistique du test C de Cochran est:

C = \frac{max_k (\sigma_k ^2)}{\sum_{k = 1} ^K \sigma_k ^2}

Elle suit une loi de Cochran de paramètres (\frac{n}{K},K). L’hypothèse H_0 est: « Les variances sont égales / \sigma_1 ^2 = \cdots = \sigma_K ^2« .

Ci-dessous la table de la loi de Cochran:

add

Tendance pour le rejet de H_0:

Par formulation, la statistique de test C est bornée par:

\frac{1}{K} \leq \frac{max_{k \in [1, \cdots, K]} \sigma_k ^2}{\sum_{k = 1} ^K \sigma_k ^2} < 1

, puisque la valeur maximale ne peut être plus grande que la somme et, dans le cas où toutes les variances sont égales, ne peut être plus petite que \frac{1}{K}. Cette propriété est en réalité le fondement du test C de Cochran qui, finalement, consiste à étudier la part de variance que prend la plus grande des variances et détermine si cette part est statistiquement trop importante par rapport aux autres. L’intervention des degrés de liberté ont alors une importance majeure, particulièrement le paramètre K, qui va en quelque sorte fixer la limite du seuil de significativité en fonction des parts redistribuées dans le cas où les variances sont toutes égales.

\bullet Tendance lorsque n \longrightarrow \infty:

– Nous avons fait tourner cinq simulations afin d’étudier la robustesse du test de C de Cochran. Nous générons des échantillons de taille 10, 10 ^2, 10 ^3, 10 ^4 puis 10 ^5 selon une loi normale de telle manière à ce que les variances soient bien distinctes et nous étudions si le fait d’augmenter le paramètre n a une influence sur le fait d’accepter H_0 à tort.

add

Nous constatons que nous rejetons à chaque fois l’hypothèse H_0, ce qui est en adéquation avec les hypothèses fixées.

– Nous avons fait tourner cinq simulations afin d’étudier la robustesse du test de C de Cochran. Nous générons des échantillons de taille 10, 10 ^2, 10 ^3, 10 ^4 puis 10 ^5 selon une loi normale de telle manière à ce que les variances soient assez proches et nous étudions si le fait d’augmenter le paramètre n a une influence sur le fait de rejeter H_0 à tort.

add

Nous constatons que passé un échantillon de taille N = 1 000 nous rejetons à tort H_0.

Nos simulations montrent bien que le test de C de Cochran est influencé par la taille d’échantillon.

\bullet Annexe théorique:

Cette partie présente une esquisse de la démonstration du test C de Cochran.

Pour un ensemble \lbrace u_1, \cdots, u_K \rbrace distribué indépendamment, Ronald Aymer Fisher a montré en 1929 que la probabilité du ratio entre la plus grande valeur de u_k sur la somme des u_k, \forall k est:

P = K (1 - \alpha) ^{K - 1} - \frac{K (K - 1)}{2!} (1 - 2 \alpha) ^{K - 1} + \cdots + (-1) ^{k - 1} \frac{K!}{k! (K - k)!} (1 - k \alpha) ^{K - 1}

, avec k la plus grande intégrale inférieur à \frac{1}{\alpha} et \alpha le seuil de significativité fixé. Ce résultat se prouve par la démonstration suivante. Posons:

P_t (\alpha) = (1 - t \alpha) ^{K - 1}

, nous avons alors la probabilité x_1 soit inférieur à \alpha est 1 - P_1(\alpha). Cependant,

p(x_1 \leq \alpha) = p(x_1 \leq \alpha, x_2 \leq \alpha) + p(x_1 \leq \alpha, x_2 > \alpha)

\Rightarrow p(x_1 \leq \alpha, x_2 > \alpha) = P_1(\alpha) - P_2(\alpha)

\Rightarrow p(x_1 \leq \alpha, x_2 \alpha) = 1 - 2 P_1(\alpha) + P_2(\alpha)

Par raisonnement analogue, nous avons,

p(x_1 \leq \alpha, x_2 \leq \alpha, x_3 > \alpha) = P_1(\alpha) - 2 P_2(\alpha) + P_3(\alpha)

\Rightarrow p(x_1 \leq \alpha, x_2 \leq \alpha, x_3 \leq \alpha) = 1 - P_1(\alpha) + 3 P_2(\alpha) - P_3(\alpha)

La règle pour la construction des termes successifs est alors triviale et un raisonnement par récurrence permet de conclure au cas générale:

1 - K P_1(\alpha) + \frac{K (K - 1)}{2!} P_2(\alpha) - \cdots + (-1) ^K P_K(\alpha)

L’indépendance des distributions permet de réduire P_2 = P_1 ^2 (\alpha), P_3 = P_1 ^3 (\alpha), etc.

L’ application de ce résultat (qui a donné naissance à un théorème bien connu) à la distribution conjointe du groupe des ratios de forme x_i = \frac{u_i}{\sum_{i} u_i} permet de déterminer la distribution générale.

Ainsi, les quantités x_i sont de la forme \frac{1}{1 + \frac{ddl_1 e ^{2z}}{ddl_2}} faisant intervenir le z de Fisher avec ddl_2 = ddl_1 (K - 1), ddl_1 (K - 2), ddl_1 (K - 3), \cdots respectivement.

La loi de distribution de v = e ^{2z} est alors,

\frac{ddl_1 ^{\frac{1}{2} ddl_1} ddl_2 ^{\frac{1}{2} ddl_2}}{B(\frac{1}{2} ddl_1, \frac{1}{2} ddl_2)} \frac{v ^{\frac{1}{2} ddl_1 - 1} \partial v}{(ddl_2 + ddl_1 v) ^{\frac{1}{2} (ddl_1 + ddl_2)}}

D’où la distribution des x_i qui est:

\frac{1}{B(\frac{1}{2} ddl_1, \frac{1}{2} ddl_2)} x_i ^{\frac{1}{2} ddl_2 - 1} (1 - x_i) ^{\frac{1}{2} ddl_1 - 1} \partial x_i, 0 \leq x_i \leq 1

Le résultat général, appliqué à x_i, nous donne: x_1, \frac{x_2}{1 - x_1}, \frac{x_3}{1 - x_1 - x_2}, \cdots. Et en appliquant la substitution adéquate, nous obtenons alors,

f_1(x_1) = B_{r,K} x ^{\frac{1}{2} r - 1} (1 - x_1) ^{\frac{1}{2} r (K - 1) - 1}, 0 \leq x_1 \leq 1

Dans le cas de la distribution conjointe de x_1, x_2, nous obtenons,

f_2(x_1, x_2) = B_{r, K} B_{r, K - 1} (x_1 x_2) ^{\frac{1}{2} r - 1} (1 - x_1 - x_2) ^{\frac{1}{2} r (K - 2) - 1} si x_1 + x_2 \leq 1, 0 sinon.

Et dans le cas de la distribution conjointe de x_1, x_2, x_3, nous obtenons,

f_3(x_1, x_2, x_3) = B_{r,K} B_{r,K - 1} B_{r, K - 2} (x_1 x_2 x_3) ^{\frac{1}{2} r - 1} (1 - x_1 - x_2 - x_3) ^{\frac{1}{2} r (K - 3) - 1} si x_1 + x_2 + x_3 \leq 1, 0 sinon.

Et ainsi de suite, avec B_{r,K} = \frac{1}{B(\frac{r}{2}, \frac{r (K - 1)}{2})}.

Pour finir, attardons nous désormais à la distribution du plus grand ratio. En reprenant notre raisonnement, nous avons,

P_1 (\alpha) = \int_0 ^1 f_1 (x_1) \partial x_1,

P_2 (\alpha) = \int_{\alpha} ^{1 - \alpha} \partial x_2 \int_{\alpha} ^{1 - x_2} f_2 (x_1, x_2) \partial x_1 si \alpha \leq \frac{1}{2}, 0 sinon,

P_3(\alpha) = \int_{\alpha} ^{1 - 2 \alpha} \partial x_3 \int_{\alpha} ^{1 - x_1 - \alpha} \partial x_2 \int_{\alpha} ^{1 - x_2 - x_1} f_3 (x_1, x_2, x_3) \partial x_1 si \alpha \leq \frac{1}{3}

, et ainsi de suite.

D’où,

K P_1 (\alpha) = \frac{K (K - 1)}{2!} P_2 (\alpha) + \cdots + (- 1) ^{K - 1} P_K (\alpha),

Où le nombre de termes non nuls qui apparaissent dans l’expression est la meilleur intégrale inférieur à \frac{1}{\alpha}.

\bullet Exemple:

Soit l’échantillon ci-dessous:

add

Les boxplots suivants offrent une visualisation plus concrète de notre jeu de données:

addCette représentation des données permet de voir que les variances de nos 3 groupes sont sensiblement les mêmes. Prouvons le statistiquement.

Nous passerons volontairement sur l’hypothèse de normalité de nos données. Commençons par déterminer les trois variances de X restreint aux différents groupes de Y:

var(X|_{Y = 1}) = \sigma_1 ^2 = 13.19884

var(X|_{Y = 2}) = \sigma_2 ^2 = 11.45007

var(X|_{Y = 3}) = \sigma_3 ^2 = 9.107011

Par conséquent,

C = \frac{max(\sigma_1 ^2, \sigma_2 ^2, \sigma_3 ^2)}{\sum_{k = 1} ^3 \sigma_k ^2}

= \frac{\sigma_1 ^2}{\sigma_1 ^2 + \sigma_2 ^2 + \sigma_3 ^2}

= \frac{\sigma_1 ^2}{13.19884 + 11.45007 + 9.107011}

= \frac{13.19884}{33.75592}

= 0.3910082

Si nous reportons la valeur de la statistique de test à la loi de Cochran de paramètres (\frac{20}{3},3) = (0.6666667, 3), nous trouvons une p-valeur de 1 >>>> 5\%. Par conséquent, nous ne pouvons rejeter H_0 et conclure quand à une différence entre les 3 variances de X restreint aux groupes de Y.

\bullet Application informatique:

Procédure SAS: http://analytics.ncsu.edu/sesug/2014/SD-05.pdf

Package et fonction R: http://www.inside-r.org/packages/cran/outliers/docs/cochran.test

\bullet Bibliographie:

– The distribution of the largest of a set of estimated variances as a fraction of their total de William Gemmell Cochran