Le test des variances de Bartlett

add\bullet Présentation:

Publié en 1937 par Maurice Stevenson Bartlett, le test des variances de Bartlett est une approche  paramétrique permettant de tester l’égalité des variances des sous-échantillons X|_{g_1}, \cdots, X|_{g_K}, qui suivent une loi normale, correspondant à la distribution d’une variable continue X restreinte aux K groupe d’une variable variable qualitative Y.

Parmi la longue liste des tests de variance, le test de Bartlett est le plus prisé mais est également le moins robuste et le plus sensible à la non normalité des données.

\bullet Le test :

Hypothèse préliminaire: X continue et Y qualitativeNormalité des distributions.

La statistique du test des variances de Bartlett a pour formule:

X ^2 = \frac{(n-K)ln(S_* ^2) - \sum_{k = 1} ^K (n_k - 1) ln(S_k ^2)}{1 + \frac{1}{3(k - 1)}(\sum_{k = 1} ^K \frac{1}{n_k - 1} - \frac{1}{n-K})}

Où, S_* ^2 = \frac{1}{n - K} \sum_{k = 1} ^K (n_k - 1) S_k ^2 l’estimateur de la variance globale sur tous les échantillons confondus.

Cette statistique de test suit une loi du \chi ^2 à K - 1 degrés de liberté. Et l’hypothèse H_0 est: « les variances des K sous-échantillons sont égales / \sigma_1 = \cdots = \sigma_K« .

Ci-dessous la table de la loi du \chi ^2:

add47

Tendance pour le rejet de H_0:

Le test des variances de Bartlett se résume à comparer le logarithme de la somme des variances intra-groupes à la somme des logarithmes des variances intra-groupes. Plus la statistique de test X ^2 \rightarrow + \infty et plus nous avons de chance de rejeter H_0. Et inversement plus X ^2 \rightarrow 0 et plus nous avons de chance d’accepter H_0. Intéressons nous à ce dernier cas de figure.

Supposons que S_1 = S_2 = \cdots = S_K = S, si nous reprenons la formule et nous limitons au numérateur, nous avons:

(n - K) ln(S_* ^2) - \sum_{k = 1} ^K (n_k - 1) ln(S_k ^2) = (n - K) ln(\frac{1}{n - K} \sum_{k = 1} ^K (n_k - 1) S_k ^2) - \sum_{k = 1} ^K (n_k - 1) ln(S_k ^2)

= (n - K) ln(\frac{1}{n - K} \sum_{k = 1} ^K (n_k - 1) S ^2) - \sum_{k = 1} ^K (n_k - 1) ln(S ^2)

= (n - K) [ln(\sum_{k = 1} ^K (n_k - 1) S ^2 - ln(n - K)] - \sum_{k = 1} ^K (n_k - 1) ln(S ^2)

= (n - K) [ln(S ^2 \sum_{k = 1} ^K (n_k - 1) - ln(n - K)] - ln(S ^2) \sum_{k = 1} ^K (n_k - 1)

= (n - K) ln(S ^2) + (n - K) ln(\sum_{k = 1} ^K (n_k - 1)) - (n - K) ln(n - K) - ln(S ^2) \sum_{k = 1} ^K

Or \sum_{k = 1} ^K (n_k - 1) = \sum_{k = 1} ^K n_k - K = n - K, par conséquent,

= (n - K) ln(S ^2) + (n - K) ln(n - K) - (n - K) ln(n - K) - ln(S ^2) (n - K)

= 0

Concernant le cas du rejet de H_0, nous aurions tendance à dire que X ^2 ne peut converger vers + \infty puisque le logarithme d’une somme de nombres positifs est toujours inférieur à la somme des logarithmes de nombres positifs (en effet, ln(x) ayant la propriété d’être toujours de plus en faible au fur et à mesure que x est de plus en plus fort). C’est là qu’intervient les termes n - K, n_k - 1 qui vont avoir le rôle d’ajustement et faisant en sorte que le numérateur va converger vers + \infty.

Finalement, en faisant le lien avec le résultat précédent, nous retrouvons l’une des particularités du test des variances de Bartlett, à savoir qu’il suffit qu’une des variances soit différente de toutes les autres pour que le test soit significative.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous proposons ici de vérifier si le test des variances de Bartlett est sensible aux grands échantillons ou non. Étant donné la formule de la statistique de test, et qui fait intervenir régulièrement les effectifs n_k des différents groupes, il semblerait que ce soit le cas.

Le tableau ci-dessous présente l’évolution des p-valeurs associées aux statistiques de test calculées sur plusieurs simulations dans le cas où les variances sont différentes d’un groupe à l’autre.

add

Globalement, quelque soit la taille de l’échantillon, le test statistique rejette H_0, ce qui est en accords avec nos hypothèses.

Procédons à la même expérience mais cette fois-ci dans un cas où les différentes variances ne devraient pas être statistiquement différentes. Le tableau ci-dessous présente ces résultats.

addJusqu’à N = 100 nous restons cohérent avec nos hypothèses, malheureusement nous voyons qu’à partir d’un échantillon de taille 1 000, le test rejette H_0 à tort. Par conséquent nous en déduisons que le test des variances de Bartlett est sensible à la taille de l’échantillon.

\bullet Annexe théorique:

Nous proposons ici une extension de ce que nous avons vu ci-dessus sur la tendance du test.

Afin d’étudier le test des variances de Bartlett, proposons une formule de dérivation générale pour une variance S_k ^2 lorsque toutes les autres sont fixées.

\frac{\partial [(n-K)ln(S_* ^2) - \sum_{k = 1} ^K (n_k - 1) ln(S_k ^2)]}{\partial S_k ^2}

= (n - K) \cdot \frac{1}{\frac{1}{n - K} \cdot \sum_{k = 1} ^K (n_k - 1) S_k ^2} \cdot \frac{1}{n - K} \cdot (n_k - 1) - (n_k - 1) \cdot \frac{1}{S_k ^2}

= (n - K) \cdot \frac{n_k - 1}{\sum_{k = 1} ^K (n_k - 1) \cdot S_k ^2} - (n_k - 1) \cdot \frac{1}{S_k ^2}

= \frac{S_k ^2 \cdot (n - K) \cdot (n_k - 1) - (n_k - 1) \cdot \sum_{k = 1} ^K (n_k - 1) \cdot S_k ^2}{S_k ^2 \sum_{k = 1} ^K (n_k - 1) \cdot S_k ^2}

Nous retrouvons l’un des résultats présentés avant, à savoir que la dérivée s’annule si S_1 ^2 = S_2 ^2 = \cdots = S_k ^2 = \cdots = S_K ^2. En effet,

S_k ^2 \cdot (n - K) \cdot (n_k - 1) - (n_k - 1) \cdot S_k ^2 \sum_{k = 1} ^K (n_k - 1) = S_k ^2 \cdot (n - K) \cdot (n_k - 1) - (n_k - 1) \cdot S_k ^2 \cdot (n - K) = 0

Le cas qui nous intéresse et que nous n’avons qu’effleuré littéralement est celui où la dérivée converge vers + \infty. Soit le dénominateur converge vers 0 et alors,

S_k ^2 \cdot \sum_{k = 1} ^K (n_k - 1) \cdot S_k ^2 \rightarrow 0 \Rightarrow S_k ^2 \rightarrow 0 ou \sum_{k = 1} ^K S_k ^2 \rightarrow 0 \Rightarrow le cas particulier que chacune des variances converge vers 0 (donc au final malgré qu’elles soient semblables, sous prétexte qu’elles sont très faibles le test va rejeter l’hypothèse H_0 à tort).

Soit le numérateur converge vers + \infty et alors,

S_k ^2 \cdot (n - K) \cdot (n_k - 1) - (n_k - 1) \cdot \sum_{k = 1} ^K S_k ^2 \rightarrow + \infty

\Rightarrow S_k ^2 \cdot (n - K) \cdot (n_k - 1) \rightarrow + \infty et \Rightarrow S_k ^2 \cdot (n - K) >>>>> \sum_{k = 1} ^K (n_k - 1) \cdot S_k ^2

Ce qui implique que S_k ^2 explose comparé aux autres variances, nous retrouvons ici l’une des particularités du test des variances de Bartlett à savoir que nous rejettons H_0 si une seule des variances est différente des autres en extrapolant notre raisonnement.

\bullet Exemple:

Soit l’échantillon ci-dessous:

add

Les boxplots suivants offrent une visualisation plus concrète de notre jeu de données:

addCette représentation des données permet de voir que les variances de nos 3 groupes sont sensiblement les mêmes. Prouvons le statistiquement.

Nous passerons volontairement sur l’hypothèse de normalité de nos données étant donné qu’il ne s’agit que d’un exemple. Commençons par calculer nos 3 variances:

S_{X|_{Y = 1}} = S_1 = 13.19884

S_{X|_{Y = 2}} = S_2 = 11.45007

S_{X|_{Y = 3}} = S_3 = 9.107011

Calculons ensuite le terme:

S_* ^2 = \frac{1}{20 - 3} [(7 - 1) \cdot 13.19884 + (6 - 1) \cdot 11.45007 + (7 - 1) \cdot 9.107011]

= \frac{1}{17} \cdot [79.19304 + 57.25035 + 54.64207]

= \frac{191.0855}{17}

= 11.24032

Nous pouvons désormais procéder au calcul de la statistique de test:

X ^2 = \frac{(20 - 3) \cdot ln(11.24032) - [(7 - 1) \cdot ln(13.19884) + (6 - 1) \cdot ln(11.45007) + (7 - 1) \cdot ln(9.107113)]}{1 + \frac{1}{3 \cdot (3 - 1)} \cdot [\frac{1}{7 - 1} + \frac{1}{6 - 1} + \frac{1}{7 - 1} - \frac{1}{20-3}]}

= \frac{41.13162 - 15.48077 - 12.18998 - 13.25427}{1 + \frac{0.4745098}{6}}

= \frac{41.13162 - 40.92502}{\frac{6.4745098}{6}}

= \frac{0.2066054}{1.079085}

\Rightarrow X ^2 = 1.914635

En se reportant à la table du \chi ^2 à 3 - 1 = 2 degrés de liberté, nous obtenons une p-valeur égale à 0.9087 >>>> 5\%. Par conséquent nous ne pouvons rejeter H_0 ce qui implique que \sigma_1 = \sigma_2 = \sigma_3 soit que les 3 variances de nos 3 groupes ne sont pas différentes au sens statistique du terme.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_glm_sect056.htm

Package et fonction R: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/bartlett.test.html

\bullet Bibliographie: 

– Comparaison de populations. Tests paramétriques de Ricco Rakotomalala

– Probabilités, analyse des données et Statistique de Gilbert Saporta

– Méthodologie de la comparaison univariée des groupes par A. Leguebe