Le test de Levene

add

\bullet Présentation:

Publié en 1960 suite aux travaux d’Howard Levene, le  test de Levene est une approche paramétrique permettant de tester si les sous-échantillons X|_{Y = g_1}, \cdots, X|_{Y = g_K}, de X continue et restreint aux K \geq 2 groupes d’une variable Y qualitative, ont même variance.

L’hypothèse d’utilisation du test de Levene est que les sous-échantillons X|_{Y = g_1}, \cdots, X|_{Y = g_K} suivent une loi normale.

Le test de Levene est reconnu comme étant robuste au non-respect de la normalité des données, ce qui en fait une alternative intéressante au test F de Fisher-snedecor qui est retreint au cas où Y est binaire.

De plus, le test de Levene est intimement lié à celui de Brown-Forsythe, le second pouvant être considéré comme une généralisation du premier. En effet, leur formule d’usage est la même, le test de Levene se basant sur la moyenne contrairement à celui de Brown-Forsythe qui se base sur la médiane.

\bullet Le test:

Hypothèse préliminaire: X continue et suivant une loi normale et Y qualitative à K \geq 2 modalités.

La statistique du test de Levene est:

W = \frac{n - K}{K - 1} \times \frac{\sum_{k = 1} ^K n_k (\overline{Z_k} - \overline{Z}) ^2}{\sum_{k = 1} ^K \sum_{i = 1} ^{n_k} ((Z_k)_i - \overline{Z_k}) ^2}

Avec (Z_k)_i = | (X|_{Y = k})_i - \overline{X_k} | et \overline{Z} = \frac{\sum_{k = 1} ^K \sum_{i = 1} ^{n_k} (Z_k)_i}{K}

La statistique du test de Levene suit une loi de Fisher-Snedecor de paramètres (K - 1, n - K) et l’hypothèse H_0 est: « Les variances sont égales / \sigma_1 ^2 = \cdots = \sigma_K ^2« .

Ci-dessous la table de Fisher-Snedecor:

addLe test de Brown-Forsythe:

Publié en 1974 suite aux travaux de Morton B. Brown et Alan B. Forsythe, le test de Brown-Forsythe est considéré comme une généralisation du test de Levene, remplaçant la moyenne par la médiane et renforçant la robustesse de l’approche. Étrangement, les utilisateurs recommandent le test de Bartlett lorsque Y est à K > 2 modalités, alors que c’est le test de Brown-Forsythe qui garantie les résultats les plus sûrs quelque soit la distribution des données.

La statistique de test de Brown-Forsythe est, à l’instar de celle de Levene,

W = \frac{n - K}{K - 1} \times \frac{\sum_{k = 1} ^K n_k (\overline{Z_k} - \overline{Z}) ^2}{\sum_{k = 1} ^K \sum_{i = 1} ^{n_k} ((Z_k)_i - \overline{Z_k}) ^2}

Avec (Z_k)_i = | (X|_{Y = k})_i - Mediane(X_k) |.

Si nous voulons gagner en efficacité, il convient d’adapter Z à la distribution de X. Ainsi,

– Si X a une distribution symétrique, alors nous retombons sur la formule de la statistique de test de Levene,

– Si X a une distribution à queue lourde, alors ce n’est plus la médiane de X_k mais la moyenne sur les données comprises entre les 5-quantile et 95-quantile,

– Si X est asymétrique alors la formule de base du test de Brown-Forsythe est toute indiquée.

La statistique de test de Brown-Forsythe suit la même loi que celle du test de Levene et l’hypothèse H_0 est également la même.

Tendance pour le rejet de H_0:

Plus la statistique de test W est grande et plus nous avons de chance de rejeter H_0, ce qui revient à étudier:

W \rightarrow \infty

\Rightarrow \frac{n - K}{K - 1} \frac{\sum_{k = 1} ^K n_k (\overline{Z_k} - \overline{Z}) ^2}{\sum_{k = 1} ^K \sum_{i = 1} ^{n_k} ((Z_k)_i - \overline{Z_k}) ^2} \rightarrow \infty

\Rightarrow \sum_{k = 1} ^K n_k (\overline{Z_k} - \overline{Z}) ^2 \rightarrow \infty ou \sum_{k = 1} ^K \sum_{i = 1} ^{n_k} ((Z_k)_i - \overline{Z_k}) ^2 \rightarrow 0

\Rightarrow \overline{Z_k} >>>>> \overline{Z} ou \forall i, k, (Z_k)_i \approx \overline{Z_k}

Le premier cas implique qu’au moins l’une des moyennes \overline{Z_k} s’éloigne fortement de la moyenne globale et pondérée des Z. Le second cas implique que la dispersion des (Z_k)_i autour de leur moyenne respective de groupe est faible, soit une localisation concentrée autour de la moyenne.

\bullet Tendance lorsque n \longrightarrow \infty:

– Nous avons fait tourner cinq simulations afin d’étudier la robustesse du test de Levene. Nous générons des échantillons de taille 10, 10 ^2, 10 ^3, 10 ^4 puis 10 ^5 selon une loi normale de telle manière à ce que les variances soient bien distinctes et nous étudions si le fait d’augmenter le paramètre n a une influence sur le fait d’accepter H_0 à tort.

add3

Nous constatons que nous rejetons à chaque fois l’hypothèse H_0, ce qui est en adéquation avec les hypothèses fixées.

– Nous avons fait tourner cinq simulations afin d’étudier la robustesse du test de Levene. Nous générons des échantillons de taille 10, 10 ^2, 10 ^3, 10 ^4 puis 10 ^5 selon une loi normale de telle manière à ce que les variances soient assez proches et nous étudions si le fait d’augmenter le paramètre n a une influence sur le fait de rejeter H_0 à tort.

add3

Nous constatons que passé un échantillon de taille N = 10 000 nous rejetons à tort H_0.

Nos simulations montrent bien que le test de de Levene est influencé par la taille d’échantillon.

\bullet Annexe théorique:

Nous présentons ici une esquisse de la preuve que le test de Levene suit bien un loi de Fisher-Snedecor.

D’un point de vue théorique, le test est le ratio de la variance sur la dispersion localisée en fonction des différents K groupes de deux variables aléatoires qui suivent, chacune, une loi normale. Ce qui nous intéresse c’est la loi de probabilité au numérateur et au dénominateur.

De manière générale, l’estimateur de la variance d’une variable aléatoire X \hookrightarrow N(\mu, \sigma) peut se décomposer en:

\sum_{i = 1} ^n (X_i - \mu) ^2 = \sum_{i = 1} ^n (X_i - \overline{X}) ^2 + n \cdot (\overline{X} - \mu) ^2 \leftrightarrow \sum_{i = 1} ^n (\frac{X_i - \mu}{\sigma}) ^2 = \frac{n \dot S ^2}{\sigma ^2} + (\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}}) ^2

Le membre de gauche \sum_{i = 1} ^n (\frac{X_i - \mu}{\sigma}) ^2 est une variable aléatoire égale à la somme de n variables centrées-réduites suivant une loi normale et qui, par définition, suit une loi du \chi ^2 à n degrés de liberté, par conséquent \frac{n \cdot S ^2}{K - 1} suit une loi du \chi ^2 à K - 1 degrés de liberté.

Un raisonnement analogue permet de voir que le dénominateur, qui est en fait divisé par \frac{1}{n - K}, suit quand à lui une loi du \chi ^2 à n _ K degrés de liberté.

Or, par définition de la loi de Fisher, qui se définit comme le rapport de deux \chi ^2 à v_1, v_2 degrés de liberté, le test de Levene suit une loi de Fisher à (n - K, K - 1) degrés de liberté.

\bullet Exemple:

Soit l’échantillon ci-dessous:

add

Les boxplots suivants offrent une visualisation plus concrète de notre jeu de données:

addCette représentation des données permet de voir que les variances de nos 3 groupes sont sensiblement les mêmes. Prouvons le statistiquement.

Dans un premier temps, calculons les vecteurs Z_1, Z_2, Z_3,

Z_1 = | X|{_Y = 1} - \overline{X|_{Y = 1}} |

= (2.7625143,3.6732143,4.1147857,3.7491143,0.9389143,4.4092857,2.5996857)

\Rightarrow \overline{Z_1} = 3.178216

Z_2 = | X|_{Y = 2} - \overline{X|_{Y = 2}} |

= (2.122283,1.984017,2.057817,6.014983,2.114817,1.980617)

\Rightarrow \overline{Z_2} = 2.712422

Z_3 = | X|_{Y = 3} - \overline{X|_{Y = 3}} |

= (1.5987,1.5503,5.0336,2.2349,2.7049,1.4696,3.1424)

\Rightarrow \overline{Z_3} = 2.533486

Enfin, nous avons alors,

Z = \sum_{k = 1} ^3 \frac{Z_k}{3} = \frac{3.178216 + 2.712422 + 2.533486}{3} = 2.812822

Nous pouvons désormais calculer la statistique de test de Levene,

W = \frac{20 - 3}{3 - 1} \times \frac{\sum_{k = 1} ^3 n_k (\overline{Z_k} - 2.812822) ^2}{\sum_{k = 1} ^3 \sum_{i = 1} ^{n_k} ((Z_k)_i - \overline{Z_k}) ^2}

= \frac{17}{2} \times \frac{7 \times (3.178216 - 2.812822) ^2 + 6 \times (2.712422 - 2.812822) ^2 + 7 \times (2.533486 - 2.812822) ^2}{\sum_{i = 1} ^7 ((Z_1)_i - 3.178216) ^2 + \sum_{i = 1} ^6 ((Z_2)_i - 2.712422) ^2 + \sum_{i = 1} ^7 ((Z_3)_i - 2.533486) ^2}

= 8.5 \times \frac{0.9345894 + 0.06048096 + 0.5462002}{8.485621 + 13.10693 + 9.712216}

= 8.5 \times \frac{1.54171}{31.30477}

= 8.5 \times 0.04924841

= 0.4186114

Si nous reportons cette valeur à la table de la loi de Fisher-Snedecor pour les degrés de liberté (3-1,20-3) = (2,17), nous obtenons une p-valeur de 0.6646 >>>>> 5 \%. Nous concluons au non rejet de l’hypothèse H_0 et donc que les variances ne sont pas différentes.

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/statug_glm_sect056.htm

Package et fonction R: http://www.inside-r.org/packages/cran/car/docs/leveneTest

\bullet Bibliographie:

– Contributions to probability and statistics de Ingram Olkin, Sudhish G. Ghurye, Wassily Hoeffding, William G. Madow et Henry B. Mann

– Comparaison de populations. Tests paramétriques de Ricco Rakotomalala

– Probabilité, analyse des données et statistique de Gilbert Saporta