L’ANalyse de COVAriance

snedecor\bullet Présentation:

Mise au point en 1935 par Ronald Aymer Fisher, l’ANalyse de COVAriance également appelée ANCOVA est une approche paramétrique permettant de tester l’influence d’une variable explicative qualitative (appelées facteur dans le jargon de l’ANCOVA) X à K \geq 2 modalités sur une variable continue à expliquer Y ^{t_2} en prenant en compte la covariance avec une variable continue Y ^{t_1} appariée à Y ^{t_2} (le terme de covariable est plutôt prévilégié pour le couple Y ^{t_1}, Y ^{t_2})). L’objectif est de déterminer si les différents sous-échantillons (Y ^{t_2}|_{X = 1}, \cdots, Y ^{t_2}|_{X = K}), qui suivent une loi normale et qui ont même variance, de Y ^{t_2} restreinte aux k \in [1, K] groupes respectifs du facteur X ont même moyenne après avoir été ajusté à Y ^{t_1}.

L’ANCOVA a également été étendue au cas de plus d’un couple de variables appariées à expliquer, son nom est l’ANalyse de COVAriance Multivariée ou MANCOVA. La méthode reste similaire à la MANOVA.

\bullet Le test:

Hypothèse préliminaire: Normalité et homoscédasticité du couple de variables continues appariées (Y ^{t_1}, Y ^{t_2}) restreintes aux K \geq 2 différents groupes du facteur X.

L’ANCOVA se base sur le modèle linéaire suivant:

(Y ^{t_2}|_{X = k})_i = \mu + \tau_k + \beta \cdot (Y ^{t_2}|_{X = k})_i + \epsilon

, où \mu est la moyenne générale de Y ^{t_2}, \tau_k l’effet réel sur l’observation du facteur X = k et \epsilon l’erreur expérimentale.

Afin de procéder à l’ANCOVA, il faut principalement calculer les éléments suivants:

S_{Y ^{t_1}, Y ^{t_1}} = \sum_{i = 1} ^n [Y ^{t_1}_i - \overline{Y ^{t_1}}] ^2, somme des carrés totale pour Y ^{t_1},

S_{Y ^{t_2}, Y ^{t_2}} = \sum_{i = 1} ^n [Y ^{t_2}_i - \overline{Y ^{t_2}}] ^2, somme des carrés totale pour Y ^{t_2},

S_{Y ^{t_1}, Y ^{t_2}} = \sum_{i = 1} ^n [Y ^{t_1}_i - \overline{Y ^{t_1}}] \cdot [Y ^{t_2}_i - \overline{Y ^{t_2}}], la somme des produits totale de Y ^{t_1}, Y ^{t_2},

E_{Y ^{t_1}, Y ^{t_1}} = \sum_{k = 1} ^K \sum_{i = 1} ^{n_k} [(Y ^{t_1}|_{X = k})_i - \overline{Y ^{t_1} |_{X = k}}] ^2, la somme des carrés des erreurs pour Y ^{t_1},

E_{Y ^{t_2}, Y ^{t_2}} = \sum_{k = 1} ^K \sum_{i = 1} ^{n_k} [(Y ^{t_2}|_{X = k})_i - \overline{Y ^{t_2} |_{X = k}}] ^2, la somme des carrés des erreurs pour Y ^{t_2},

E_{Y ^{t_1}, Y ^{t_2}} = \sum_{k = 1} ^K \sum_{i = 1} ^{n_k} [(Y ^{t_1}|_{X = k})_i - \overline{Y ^{t_1}|_{X = k}}] \cdot [(Y ^{t_2}|_{X = k})_i - \overline{Y ^{t_2}|_{X = k}}], la somme des produits des erreurs pour Y ^{t_1}, Y ^{t_2},

SC_T = S_{Y ^{t_2}, Y ^{t_2}} - \frac{S_{Y ^{t_1}, Y ^{t_2}} ^2}{S_{Y ^{t_1}, Y ^{t_1}}}, la somme des carrés totale ajustée,

SC_{erreur} = E_{Y ^{t_2}, Y ^{t_2}} - \frac{E_{Y ^{t_1}, Y ^{t_2}} ^2}{E_{Y ^{t_1}, Y ^{t_1}}}, la somme des carrés des erreurs ajustée,

SC_K = SC_T - SC_{erreur}, la somme des carrés des groupes ajustée du facteur X.

L’objectif de l’ANCOVA étant de calculer la statistique de Fisher F pour les différents effets étudiés. Nous avons donc les éléments suivants à calculer pour les dégrés de liberté:

– pour les sommes totales: n - 1,

– pour les sommes des différents groupes du facteur X: K - 1,

– pour les sommes des erreurs: n - K,

– associés à SC_T: n - 2,

– associés à SC_{erreur}: n - K - 1,

– associés à SC_K: K - 1.

Deux tests sont ainsi d’intérêt pour l’ANCOVA,

F = \frac{\frac{SC_K}{K-1}}{\frac{SC_{erreur}}{n - K - 1}}

, qui suit une loi de Fisher à (K - 1, n - K - 1). L’hypothèse H_0 est:  » influence du facteur X sur Y ^{t_2} après ajustement sur Y ^{t_1} / \tau_1 = \cdots = \tau_K « .

F = \frac{\frac{E_{Y ^{t_1}, Y ^{t_2}} ^2}{E_{Y ^{t_1}, Y ^{t_1}}}}{\frac{SC_{erreur}}{n - K - 1}}

, qui suit une loi de Fisher à (1 , n - K - 1). L’hypothèse H_0 est:  » il existe un lien entre Y ^{t_1} et Y ^{t_1} indépendamment du facteur X / \beta = 0 « .

A noter que les éléments suivants peuvent également être calculés, mais restent peu utilisés de manière générale:

T_{Y ^{t_1}, Y ^{t_1}} = \sum_{k = 1} ^K \sum_{i = 1} ^{n_k} [\overline{Y ^{t_1}|_{X = k}} - \overline{Y ^{t_1}}] ^2, la somme des carrés des facteurs pour Y ^{t_1},

T_{Y ^{t_2}, Y ^{t_2}} = \sum_{k = 1} ^K \sum_{i = 1} ^{n_k} [\overline{Y ^{t_2}|_{X = k}} - \overline{Y ^{t_2}}] ^2, la somme des carrés des groupes du facteur X pour Y ^{t_2},

T_{Y ^{t_1}, Y ^{t_2}} = \sum_{k = 1} ^K [\overline{Y ^{t_1}|_{X = k}} - \overline{Y ^{t_1}}] \cdot [\overline{Y ^{t_2}|_{X = k}} - \overline{Y ^{t_2}}], la somme des produits des groupe du facteur X pour Y ^{t_1}, Y ^{t_2},

Ci-dessous la table de Fisher:

add

Tendance pour le rejet de H_0:

L’étude de l’ANCOVA revient principalement de deux approches:

– Etudier le pente formée par (Y ^{t_1}, Y ^{t_2}) indépendamment de X, ce qui revient à calculer la statistique de test,

F = \frac{\frac{E_{Y ^{t_1}, Y ^{t_2}} ^2}{E_{Y ^{t_1}, Y ^{t_1}}}}{\frac{SC_{erreur}}{n - K - 1}}

, qui doit tendre vers \infty pour que nous puissions rejetter H_0. Ce qui revient à dire que E_{Y ^{t_1}, Y ^{t_2}} \rightarrow \infty soit une covariance entre (Y ^{t_1}, Y ^{t_2}) très forte. Nous nous retrouvons alors avec une dispersion importante et donc une pente qui n’est pas nulle.

– Etudier l’influence de X sur Y ^{t_2} après ajustement sur Y ^{t_1}, ce qui revient à calculer la statistique de test,

F = \frac{\frac{SC_K}{K-1}}{\frac{SC_{erreur}}{n - K - 1}}

, qui doit tendre vers \infty pour que nous puissions rejetter H_0. Ce qui revient à dire que SC_K = SC_T - SC_{erreur} \rightarrow \infty \Rightarrow SC_T >>>>> SC_{erreur}. Remarquons que SC_T, somme des carrés ajustée, se base sur l’évolution de Y ^{t_1}, Y ^{t_2} par rapport aux moyennes générales du couple contre SC_{erreur}, somme des erreurs ajustée, se base sur l’évolution de Y ^{t_1}, Y ^{t_2} par rapport aux moyennes du couple au sein des groupes du facteur X. SC_T >>>>>> SC_{erreur} implique donc une variance inter-groupe importante et donc une influence du facteur X sur Y ^{t_2} (effet, SC_T = SC_{erreur} implique que les barycentres des différents groupes sont confondus avec le barycentre globale, eux-même égaux entre eux par conséquent).

Nous pouvons nous intéresser sur la subitilité de l’ANCOVA d’ajuster l’effet par rapport à la variable Y ^{t_1}. Si nous regardons plus précisément les formules de SC_T, SC_{erreur} nous constatons qu’il s’agit de calculer la variance de la variable d’intérêt Y ^{t_2} et d’en soustraire le rapport entre la covariance de Y ^{t_1}, Y ^{t_2} et la variance de Y ^{t_1}. Ce rapport s’approche de 0 si la covariance est faible ou si la variable de Y ^{t_1} est trop forte. Ainsi une covariance trop importante entre Y ^{t_1}, Y ^{t_2} va masquer l’effet de X en faisant exploser les valeurs de SC_T, SC_{erreur}. La différence convergera alors vers 0 amenant l’acceptation de H_0

\bullet Tendance lorsque n \longrightarrow \infty:

L’étude de l’ANOVA revient à l’étude du test de Fisher.

Nous avons générer des échantillons de taille n = 100, 1000, 10000, 100000, 1000000 et avons calculé le F de Fisher afin d’observer l’évolution de la p-valeur et sa robustesse aux échantillons trop grand.

Dans un premier temps nous avons appliquer notre test dans le cas où les deux échantillons ont des variances différentes. Le tableau ci-dessous résume l’évolution de la p-valeur:

addNous constatons que nous rejetons bien H_0, nous sommes en adéquation avec la conclusion attendue.

Enfin, nous menons le même test, cette fois-ci pour le cas où les deux échantillons ont des variances égales au sens statistique. Le tableau ci-dessous présente l’évolution de la p-valeur au fur et à mesure que l’échantillon croît:

addLa logique entre la conclusion du test et les hypothèses menées sur les deux échantillons est respectée jusqu’à ce qu’on approche n = 10 000 , par conséquent le test conserve une bonne robustesse face à la taille de n.

\bullet Annexe théorique: 

Nous présentons ici une justification que la statistique de test F suit bien un loi de Fisher.

D’un point de vue théorique, la statistique de test F est le ratio des estimateurs de la variance S_1 ^2, S_2 ^2 de deux variables aléatoires qui suivent, chacune, une loi normale. Ce qui nous intéresse c’est la loi de probabilité de ces deux estimateurs S_1 ^2, S_2 ^2.

Nous savons que l’estimateur de la variance S ^2 d’une variable aléatoire X \hookrightarrow N(\mu, \sigma) peut se décomposer en:

\sum_{i = 1} ^n (X_i - \mu) ^2 = \sum_{i = 1} ^n (X_i - \overline{X}) ^2 + n \cdot (\overline{X} - \mu) ^2 \leftrightarrow \sum_{i = 1} ^n (\frac{X_i - \mu}{\sigma}) ^2 = \frac{n \dot S ^2}{\sigma ^2} + (\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}}) ^2

Le membre de gauche \sum_{i = 1} ^n (\frac{X_i - \mu}{\sigma}) ^2 est une variable aléatoire égale à la somme de n variables centrées-réduites suivant une loi normale et qui, par définition, suit une loi du \chi ^2 à n degrés de liberté, par conséquent \frac{n \dot S ^2}{\sigma ^2} et donc \frac{n \cdot S ^2}{n - 1} suivent également une loi du \chi ^2 à n - 1 degrés de liberté.

Or, par définition de la loi de Fisher, comme \frac{n_1 \cdot S_1 ^2}{n_1 - 1} et \frac{n_2 \cdot S_2 ^2}{n_2 - 1} suivent des lois du \chi ^2 à, respectivement, n_1 - 1, n_2 - 1 degrés de liberté, F suit une loi de Fisher à (n_1 - 1, n_2 - 1) degrés de liberté.

\bullet Exemple:

Soit l’échantillon suivant:

add

Le biplot suivant présente les différents couples de coordonnées Y ^{t_1}, Y ^{t_2} avec l’ellipse de dispersion en fonction du facteur X.

addLe graphe montre deux choses:

– les deux variables Y ^{t_1}, Y ^{t_2} covarient entre elles,

– les barycentres des groupes semblent distinct mais leur variance respective semble proche les unes des autres

Procédons au premier test: est-ce que la pente associée au couple Y ^{t_1}, Y ^{t_2} est nulle? Calculons les différents éléments nécessaires:

E_{Y ^{t_1}, Y ^{t_1}} = \sum_{i = 1} ^7 [(Y ^{t_1} |_{X = 1})_i - 5.384686] ^2 + \sum_{i = 1} ^6 [(Y ^{t_1} |_{X = 2})_i - 7.591083] ^2 + \sum_{i = 1} ^7 [(Y ^{t_1} |_{X = 3})_i - 6.4525] ^2

= 79.19303 + 57.25033 + 54.64206

= 191.0854

E_{Y ^{t_2}, Y ^{t_2}} = \sum_{i = 1} ^7 [(Y ^{t_2} |_{X = 1})_i - 4.0028] ^2 + \sum_{i = 1} ^6 [(Y ^{t_2} |_{X = 2})_i - 10.49137] ^2 + \sum_{i = 1} ^7 [(Y ^{t_2} |_{X = 3})_i - 16.9695] ^2

= 27.85267+ 17.38257 + 28.55201

= 73.78725

E_{Y ^{t_1}, Y ^{t_2}} = \sum_{i = 1} ^7 [(Y ^{t_1} |_{X = 1})_i - 5.384686] \times [(Y ^{t_2} |_{X = 1})_i - 4.0028] + \sum_{i = 1} ^6 [(Y ^{t_1} |_{X = 2})_i - 7.591083] \times [(Y ^{t_2} |_{X = 2})_i - 10.49137] + \sum_{i = 1} ^7 [(Y ^{t_1} |_{X = 3})_i - 6.4525] \times [(Y ^{t_2} |_{X = 3})_i - 16.9695]

= -27.03166 + 5.020149 + 21.93301

= -0.078501

Nous avons donc,

SC_{erreur} = \frac{73.78725 - \frac{(-0.0078501) ^2}{191.0854}}{16} = 73.78725, avec 20 - 3 - 1 = 16 degrés de liberté.

Nous pouvons désormais calculer la statistique de test de Fisher,

F = \frac{\frac{(-0.0078501) ^2}{191.0854}}{\frac{73.78725}{16}} = 0.00000006992968

Si nous reportons cette valeur à la table de la loi de Fisher pour (1,20-3-1) = (1,16) degrés de liberté, nous obtenons p = 0.0002077253 < 5 \%. Nous rejetons l’hypothèse de nullité de la pente formée par Y ^{t_1}, Y ^{t_2} indépendamment du facteur X.

Maintenant, procédons au second test: avons-nous un effet du facteur X sur Y ^{t_2} après ajustement sur Y ^{t_1}? Calculons les éléments manquant:

S_{Y ^{t_1}, Y ^{t_1}} = \sum_{i = 1} ^{20} [Y ^{t_1}_i - 6.42034] ^2 = 206.8246

S_{Y ^{t_2}, Y ^{t_2}} = \sum_{i = 1} ^{20} [Y ^{t_2}_i - 6.42034] ^2 = 662.2609

S_{Y ^{t_1}, Y ^{t_2}} = \sum_{i = 1} ^{20} [Y ^{t_1}_i - 6.42034] \times [Y ^{t_2}_i - 6.42034] = 48.41924

Nous avons donc,

SC_T = 662.2609 - \frac{48.41924 ^2}{206.8246} = 650.9256

Par conséquent, la statistique de test de Fisher pour cette approche vaut,

F = \frac{\frac{650.9256 - 4.611703}{3 - 1}}{\frac{73.78725}{16}} = 70.07324

Si nous reportons cette valuer à la loi de Fisher pour (3 - 1, 20 - 3 -1) = (2, 16) degrés de liberté nous obtenons une p-valeur de p <0.0001 <<<<< 5\%. Nous pouvons donc rejeter l’hypothèse H_0 et conclure à un effet du facteur X sur Y ^{t_2} après ajustement sur Y ^{t_1}.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_glm_sect049.htm

Package et fonction R: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/anova.html

\bullet Bibliographie:

– Statistique, dictionnaire encyclopédique de Yadolah Dodge

– Comprendre et utiliser les statistiques dans les sciences de la vie de Bruno Falissard

– La page web: http://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-m-modlin-anacova.pdf