Le test du Chi2 de Pearson

Karl_Pearson\bullet Présentation:

Proposé en 1900 par Karl Pearson, le test du \chi ^2 est une approche non paramétrique permettant de tester:

– soit l’adéquation d’une variable continue ou qualitative (nominales ou ordinales) X à une loi de distribution, cette version est plus communément appelée test d’adéquation du \chi ^2 (cette version porte également le nom de test de conformité des proportions à un standard)

– soit si deux variables continues ou qualitatives (nominales ou ordinales) (X ^1, X ^2) ont même loi de distribution, cette version est plus communément appelée test d’homogénéité du \chi ^2

– soit la liaison entre deux variables qualitatives (nominales ou ordinales) distincts (X ^1, X ^2), cette version est plus communément appelée test d’indépendance du \chi ^2

\bullet Le test:

Hypothèse préliminaire: Au moins 80% des effectifs théoriques \geq 5.

Les trois versions du test du \chi ^2 se différencient en fait sur la forme des données et la gestion des effectifs théoriques. En effet,

– dans le cas du test d’adéquation, si nous sommes dans un cadre continue, il faut établir K intervalles de valeurs à partir desquels il faut comptabiliser le nombre de fois où X prend ses valeurs dans chacun des intervalles. Pour le test d’adéquation, la répartition des effectifs de X est comparée à celle de la loi de distribution de référence. Dans un cadre qualitatif à K modalités, il faudra comparer X directement. Ainsi, pour cette version du test, nous nous retrouvons avec un tableau croisé de taille 1 \times K.

– dans le cas du test d’homogénéité, et dans un cadre continue, il faut établir également K intervalles de valeurs à partir desquels il faut comptabiliser le nombre de fois où X ^1, respectivement  X^2, prend ses valeurs dans chacun des intervalles. Pour le test d’homogénéité, la répartition des effectifs de X ^1, respectivement X ^2, est comparée à celle de la loi de distribution de X ^2, respectivement  X ^1. Dans un cadre qualitatif à K_1, K_2 modalités respectivement pour nos deux variables, il faudra comparer X ^1, respectivement X ^2, directement en prenant soin de regrouper les modalités afin que les deux variables soient comparables. Ainsi, pour cette version du test, nous nous retrouvons avec un tableau croisé de taille 1 \times K.

– dans le cas du test d’indépendance, nous avons directement accès au tableau croisé de X ^1, X ^2 de taille L \times C , où L, C le nombre de modalités de X ^1 et celui de X ^2.

La formule du test du \chi ^2 étant la même quelque soit la version une fois que les données ont été adaptées au cas qui nous intéresse. Nous pouvons donc ériger sa formule qui se base, de manière générale, sur le tableau croisé de forme,

addOù les couples (L,C) représentent les différentes cellules issues du croisement des deux variables X ^1 et X ^2 (L = 1 dans le cas du test d’adéquation et d’homogénéité et chacune des cellules contiennent la répartition en effectif de X, X ^1X ^2). n_{l,c} la fréquence observée et e_{l,c} la fréquence théorique que nous pouvons calculer par:

e_{1,c} = n \times P(X = x_k / \mbox{ la loi de distribution de reference}) pour le test d’adéquation

e_{1,c} = \sharp \lbrace X ^1 (\mbox{ respectivement } X ^2) \in M_c \rbrace pour le test d’homogénéité, en posant M_c la modalité ou l’intervalle numéro c \in \lbrace 1, \cdots K

e_{l,c} = \frac{\sum_{i = 1} ^{n_L} n_{i,c} \times \sum_{j = 1} ^{n_C} n_{l,j}}{n} pour le test d’indépendance

Notons que ce test est réputé comme « douteux » si la configuration du jeu de données ne  respecte pas l’hypothèse préliminaire (critère de Cochran).

La formule de la statistique du test du \chi ^2 est alors donnée par:

\chi ^2 = \sum_{l = 1} ^{n_l} \sum_{c = 1} ^{n_c} \frac{(n_{l,c} - e_{l,c}) ^2}{e_{l,c}}

Cette statistique de test suit une loi du \chi ^2 à (n_L - 1, n_C - 1) degrés de liberté et l’hypothèse H_0 est: « les distributions comparées sont identiques » (ce qui peut se traduire, dans le cas du test d’indépendance, par « les deux variables sont indépendantes »).

Ci-dessous le tableau de la loi du \chi ^2.

add

Le test de conformité de proportion à un standard:

Nous avons vu que le test d’adéquation porte également le nom de test de conformité des proportions à un standard. Une autre variante existe et porte plus sur une approche visant à comparer une proportion à un standard. Sa formule est:

U = \frac{F}{n} - f_0

, avec F proportion que nous voulons comparer au standard f_0.

La statistique de test suit une loi normale centrée et d’écart-type: \sqrt{\frac{f_0 \cdot (1 - f_0)}{n}}. L’hypothèse H_0 est: « la proportion est égale au standard / F = f_0« .

La correction de Yates :

Dans le cas d’effectifs observés faibles (n \geq 50), il faut comprendre que la loi du \chi ^2 est une loi de probabilité continue alors que les données suivent une loi binomial, par conséquent dans ce cadre là une surévaluation du \chi ^2 est observée et est corrigée en appliquant un ajustement de \frac{1}{2} à chacun des termes calculés.

La correction de Yates ne pallie pas au problème de fiabilité induit dans le cas d’effectifs théoriques trop faible. De plus la correction de Yates est recommandée pour des tableaux croisés de taille 2 \times 2.

La formule du test du \chi ^2 incluant la correction de Yates devient alors:

\chi ^2 = \sum_{l = 1} ^{n_l} \sum_{c = 1} ^{n_c} \frac{(| n_{l,c} - e_{l,c} | - 0.5) ^2}{e_{l,c}}

L’Approximation par méthode MCMC :

Une manière de pallier au cas où les effectifs théoriques sont inférieurs à 5 est soit de procéder au test exact de Fisher mais qui est trop coûteux en temps de calcul (même pour certains logiciels) dés que le tableau est de taille supérieure (aussi bien carré que rectangulaire) à 2 \times 2, soit d’exécuter le test du \chi ^2 par algorithme de Monte-Carlo par chaînes de Markov (approche MCMC).

Nous définissons dans un premier temps un nombre B de n tirages aléatoires avec remises et à probabilités égales. Ainsi nous reconstituons B versions de X (notée X ^B) où de X ^1, X ^2 (notée (X ^1) ^B, (X ^2) ^B).

Pour chaque échantillon B tiré, nous calculons son test du \chi ^2 et composons ainsi le vecteur p = (p_1, \cdots, p_B) des p-values associées aux statistiques de test.

La p-value finale, calculée selon la méthode MCMC est alors donnée par:

p_{\chi ^2} ^{MCMC} = \frac{1 + \sharp \lbrace p_k \geq p_{\chi ^2}, \forall k \in [1, \cdots, B] \rbrace}{B + 1}

p_{\chi ^2} est la p-value associée à la statistique de test du \chi ^2 sur l’échantillon de référence.

L’idée de l’approche MCMC associée à la théorie des tests est de comparer la puissance de la p-valeur associée à la statistique de test de l’échantillon testée à celles obtenues sur des sous-échantillons tirés aléatoirement. En réalité nous n’estimons pas la p-valeur mais sa probabilité d’avoir la valeur de celle attendue (ici connue car calculée sur l’échantillon de référence).

L’aspect Monte-Carlo vient du fait qu’il s’agit d’une approche probabiliste faisant notamment intervenir les chaînes de Markov (de loi stationnaire: la distribution de l’échantillon de référence) et qui ont l’avantage de converger vers la loi globale de l’échantillon de référence.

Ainsi, le problème lié aux effectifs théoriques disparaît puisque l’algorithme compare l’échantillon de référence à des sous-échantillons construient aléatoirement (et donc qui ne sont plus destabilisés vis-à-vis du biais liés aux effectifs théoriques) et si les p-values calculées convergent vers celle associée à l’échantillon de référence alors c’est que cette dernière est fiable.

Tendance pour le rejet de H_0 :

Plus la valeur de la statistique de test du \chi ^2 est grande et plus nous avons de chance de rejeter H_0. Ce qui revient donc à \exists l, c tel que n_{l,c} >>> e_{l,c}.

Notons que le fait d’élever au carré le terme (n_{l,c} - e_{l,c}) met en évidence la moindre répartition inattendue et qu’il n’est pas nécessaire que la condition n_{l,c} >>> e_{l,c} soit respectée \forall l, c.

\bullet Tendance lorsque n \longrightarrow \infty:

Le test du \chi ^2 est directement influencé par les effectifs. En effet, la formule montre que nous élevons au carré la différence entre la répartition observée et celle attendue, aussi plus nous augmentons la taille de l’échantillon et plus ces différences seront marquées notamment pour des cas où effectifs observés et théoriques sont proches.

Nous présentons ci-dessous, pour un cas simple, l’évolution de la p-valeur au fur et à mesure que nous augmentons la population:

addNous voyons que, à proportion gardée, le test devient significatif alors que la distribution est quasi-aléatoire à chaque fois.

Il s’agit d’un exemple trivial, dans le cas où nous avons plusieurs cellules le test subit encore plus les effets de la taille de l’échantillon.

\bullet Annexe théorique:

Nous proposons la démonstration de la convergence de la statistique de test du \chi ^2 vers la loi du \chi ^2. Notons \chi_p ^2 (p_i) la distribution de la statistique où:

p_i = P(X \in \lbrace \mbox{ cellule } i \rbrace)

Pour T valeur arbitraire, k_i l’effectif de la cellule i et m nombre de modalités, nous avons donc,

P(\chi_p ^2 (p_i) > T) = \sum_{k_i | \chi_p ^2 (k_i, p_i) > T} \frac{k!}{k_1 ! \cdots k_m !} \cdot \prod_{i = 1} ^m p_i ^{k_i}

En utilisant la formule de Stirling, nous pouvons développer:

add

add

addNous pouvons alors factoriser,

-\frac{1}{2} ( \sum_{i = 1} ^{m - 1} \frac{x_i ^2}{p_i} + \sum_{i = 1} ^{m - 1} \frac{x_i ^2}{p_n}) = -\frac{1}{2} \sum_{i = 1} ^{m - 1} x_i \cdot A_i \cdot x_j = \sum_{i = 1} ^{m - 1} (x_i ') ^2

, avec A_i = \frac{\delta_{i,j}}{p_i} + \frac{1}{p_n}

Ainsi nous avons que:

addOr il s’agit là du produit de la somme de variables aléatoires d’espérances nulles et de variance égale à 1, nous retrouvons donc bien la loi du \chi ^2 à m - 1 degrés de libertés.

\bullet Exemple:

Application du test du \chi ^2 d’indépendance

Soit les deux variables X ^1, X ^2 ci-dessous,

addCi-dessous, l’histogramme des effectifs croisés de X ^1, X ^2 permet de voir que visuellement le groupe A de la variable  X ^1 correspond généralement au groupe B de la variable X ^2 tandis que le groupe B de la variable  X ^1 correspond aux groupes A et C de la variable  X ^2.

addNous trouvons ci-dessous la table des fréquences et entre parenthèses les fréquences théoriques:

add

Par exemple, pour l’effectif théorique de la cellule (1,1) nous avons: e_{1,1} = \frac{(1+7+2) \times (1+5)}{20} = \frac{60}{20} = 3.

Notons que nous ne sommes pas dans les conditions optimales pour l’application du test d’indépendance du \chi ^2, mais à titre d’exemple nous assumons de les ignorer volontairement. La statistique du test du \chi ^2 vaut:

\chi ^2 = \frac{(1 - 3) ^2}{3} + \frac{(5 - 3) ^2}{3} + \frac{(7 - 3.5) ^2}{3.5} + \frac{(0 - 3.5) ^2}{3.5} + \frac{(2 - 3.5) ^2}{3.5} +\frac{(5 - 3.5) ^2}{3.5} = 10.95238

Etant donné le nombre de modalités pour X ^1  et  X ^2, les degrés de liberté ddl = (3-1,2-1) = (2,1), nous obtenons alors une p-value = 0.0042. Nous rejetons donc l’hypothèse H_0 et en concluant que X ^1, X ^2 sont liés au sens statistique avec une confiance à 95%.

Application du test du \chi ^2 d’adéquation

Soit l’échantillon X ci-dessous:

addNous présentons l’histogramme de distribution de X (barres en noir) comparé à la distribution attendue dans le cadre d’une loi normale.

addNous cherchons à tester si X suit une loi normale à l’aide du test du \chi^2. Pour cela nous estimer dans un premier temps la moyenne et l’écart-type de X:

\mu = 5.261505

\sigma ^2 = 8.541427

En composant le tableau de répartition par intervalle de 2 en 2 nous obtenons:

add

En effet, par exemple l’effectif théorique (e_{1,2}) pour une loi normale, de paramètres \mu, \sigma ^2 estimée juste avant, sur l’intervalle ]2 – 4] nous donne:

e_{1,2} = 20 \times P(X \in ]2-4] / N(\mu, \sigma ^2))

= 20 \times P(X \leq 4 / N(\mu, \sigma ^2)) - 20 \times P(X \leq 2 / N(\mu, \sigma ^2))

= 6.660016 - 2.644346

= 4.0156696

Nous pouvons donc calculer la statistique du test d’adéquation du \chi ^2,

\chi ^2 = \frac{(3 - 1.9262176) ^2}{1.9262176} + \frac{(4 - 4.0156696) ^2}{4.0156696} + \cdots + \frac{(2 - 0.8381492) ^2}{0.8381492} = 2.869568

Comme nous avons composé 6 intervalles, les degrés de liberté sont alors ddl = 6 - 1 = 5 et la p-valeur que nous obtenons est 0.4122. Nous en concluons, au risque de 5%, que la variable X suit une loi normale puisque nous ne pouvons rejeter H_0.

– Application du test du \chi ^2 d’homogénéité

Soit les deux variables X ^1, X ^2 ci-dessous:

add16Nous pouvons représenter les deux densités de distribution afin de pouvoir comparer proprement X ^1 (en rouge) et X ^2 (en bleu):

addPrenons X ^2 comme variable de référence afin d’y comparer X ^1. Nous pouvons donc construire le tableau suivant en prenant soin de rendre comparable nos deux variables du fait des plages de valeurs différentes dans lesquelles elles varient:

addNotons que les effectifs théoriques ne sont pas conformes aux conditions d’utilisation du test, cependant nous passerons outre cet aspect dans le but de donner un exemple du calcul du \chi ^2 d’homogénéité. Nous avons, \chi ^2 = \frac{(11 - 4) ^2}{4} + \cdots + \frac{(0 - 5) ^2}{5} = 19.21667

Nous comptons 4 - 1 degrés de liberté puisque nous avons 4 intervalles de valeur et la p-valeur que nous obtenons est de 0.0002466. Nous rejetons donc H_0 et concluons que les deux distributions sont différentes.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_freq_sect027.htm

Package et fonction R: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/chisq.test.html

\bullet Bibliographie:

– Karl Pearson’s Theoretical Errors and the Advances They Inspired de Stephen M. Stigler

– Tout ce que vous n’avez jamais voulu savoir sur le \chi ^2 sans jamais avoir eu envie de le demander de Julien Barnier

– Contingency table involving small numbers and the \chi ^2 test de Frank Yates

– A simplified Monte-Carlo significance test procédure de Adery Hope

– Statistique, dictionnaire encyclopédique de Yadolah Dodge

– Data mining et statistique décisionnelle, l’intelligence des données de Stéphane Tufféry