Le test d’Anderson-Darling

add

\bullet Présentation:

Construit en 1954 par Theordore Wilbur Anderson et Donald Allan Darling dans une première version, puis généralisé par Michael A. Stephens en 1974, le test d’Anderson-Darling est une approche non paramétrique permettant de tester si une variable continue X suit une loi normale.

Initialement le test d’Anderson-Darling nécessitait la connaissance sur les paramètres \mu et \sigma ^2. Depuis, les travaux de différents chercheurs, principalement Michael A. Stephens, ont permis son application lorsque ce n’est pas le cas. De plus, le test peut être généralisé à d’autre loi que la loi normale, néanmoins ce cas de figure reste celui de son application la plus populaire.

Enfin, le test d’Anderson-Darling peut être vu comme une variante du test de Kolmogorov-Smirnov, se basant cette fois-ci sur la valeur maximale et minimale de l’écart entre la distribution observée et la distribution théorique. Il peut également être vu comme un cas particulier du test de Cramér-von Mises.

\bullet Le test:

Hypothèse préliminaire: Variable continue.

La statistique du test d’Anderson-Darling est:

A ^2 = -n - \frac{1}{n} \sum_{i = 1} ^n (2 i - 1) [ln( z_i ) + ln(1 - z_{n-i+1})]

z_i = F(\frac{x_i - \overline{x}}{\sigma}), \forall i \in [1, n] et avec F fonction de répartition d’une loi normale centrée-réduite. Réduit à l’observation i, F(X_i) correspond à la fréquence théorique.

En fonction de la connaissance ou non sur \mu, \sigma ^2, il convient de les estimer selon la méthodologie adaptée suivante:

– si \mu inconnu, alors nous estimons \mu par \frac{1}{n} \sum_{i = 1} ^n X_i,

–  si \sigma ^2 inconnu, alors nous estimons \sigma ^2 par \frac{1}{n} \sum_{i = 1} ^n (X_i - \overline{X}) ^2,

– lorsque \mu, \sigma ^2 connus, cas trivial, nous nous basons sur leur valeur.

Afin de déterminer la p-valeur associée à la statistique de test A ^2 il faut appliquer une transformation selon,

A ^* = (1 + \frac{0.75}{n} + \frac{2.25}{n ^2}) \cdot A ^2

Trois écoles existent:

– celle qui part du principe que cet ajustement doit se faire uniquement si \mu, \sigma ^2 sont inconnus, sinon il faut se baser sur A ^2 directement,

– celle qui part du principe que cet ajustement doit se faire uniquement si n \leq 40

– enfin, celle qui part du principe qu’il faut appliquer cet ajustement quelque soit la situation.

L’une des façon de calculer la p-valeur associée à A ^* est l’algorithme suivant:

– si A ^* < 0.2, alors p = 1 - e ^{-13.436 + 101.14 \cdot A ^* - 223.73 \cdot (A ^*) ^2},

– si 0.2 \leq A ^* < 0.34, alors p = 1 - e ^{-8.318 + 42.796 \cdot A ^* - 59.938 \cdot (A ^*) ^2},

– si 0.34 \leq A ^* < 0.6, alors p = e ^{0.9177 - 4.279 \cdot A ^* - 1.38 \cdot (A ^*) ^2},

– si 0.6 \leq A ^* < 10, alors p = e ^{1.2937 - 5.709 \cdot A ^* + 0.0186 \cdot (A ^*) ^2},

– si A ^* \geq 10, alors p<0.0001

L’hypothèse H_0 est: « La variable suit une loi normal / F_X = F_{LN}« .

Tendance pour le rejet de H_0:

Plus la statistique de test A ^2 s’approche de 0 et plus grande sont les chances d’accepter H_0. Ce qui revient à écrire:

-n - \frac{1}{n} \sum_{i = 1} ^n (2 i - 1) [ln(z_i) + ln(1 - z_{n - i + 1})] \rightarrow 0

\Rightarrow \sum_{i = 1} ^n (2 i - 1) [ln(z_i) + ln(1 - z_{n - i + 1})] \rightarrow - n ^2

\Rightarrow \forall i, ln(z_i) + ln(z_{n - i + 1}) \rightarrow - \frac{n}{2 i - 1}

\Rightarrow \forall i, ln(z_i \cdot (1 - z_{n - i + 1})) \rightarrow - \frac{n}{2 i - 1}

\Rightarrow \forall i, z_i \cdot (1 - z_{n - i + 1}) \rightarrow e ^{- \frac{n}{2 i - 1}}

\Rightarrow \forall i, z_i \approx 1 - z_{n - i + 1} \rightarrow e ^{- \frac{1}{2} \frac{n}{2 i - 1}}

La première condition est forcément remplie si z_i suit une loi normale centrée-réduite par propriété de symétrie, ainsi z_i = z_{n - i + 1}.

Pour la seconde condition, nous reconnaissons globalement la forme de la fonction de répartition d’une loi normale centrée-réduite écrite à partir de la fonction erreur erf à un coefficient près.

Par conséquent si X suit une loi normale, alors \frac{X - \mu}{\sigma} suit une loi normale centrée-réduite et donc A ^2 \rightarrow 0 impliquant le rejet de H_0.

\bullet Tendance lorsque n \longrightarrow \infty:

– Nous avons fait tourner cinq simulations afin d’étudier la robustesse du test d’Anderson-Darling. Nous générons des échantillons de taille 10^2, 10^3, 10^4 puis 10^5 selon une loi uniforme et nous étudions si le fait d’augmenter le paramètre n a une influence sur le fait d’accepter H_0 à tort.

add

Nous constatons que nous rejetons à chaque fois l’hypothèse H_0, ce qui est en adéquation avec les hypothèses fixées. Il n’est pas assuré que dans le cas N = 10 le générateur fournisse à coup sûr un échantillon qui suit une loi uniforme, d’où la valeur de l’écart-type.

– Nous avons fait tourner cinq simulations afin d’étudier la robustesse du test de d’Anderson-Darling. Nous générons des échantillons de taille 10^2, 10^3, 10^4 puis 10^5 selon une loi normale et nous étudions si le fait d’augmenter le paramètre n a une influence sur le fait de rejeter H_0 à tort.

add

Nous constatons que nous acceptons à chaque fois l’hypothèse H_0, ce qui est en adéquation avec les hypothèses fixées.

Nos simulations montrent bien que le test d’Anderson-Darling n’est pas influencé par la convergence de n vers \infty.

\bullet Annexe théorique:

Nous présentons ici une esquisse du raisonnement à suivre pour retrouver la formule de la statistique de test d’Anderson-Darling.

Initialement, il faut savoir que les tests de normalité se basent, pour la plupart, essentiellement sur la différence quadratique entre la fonction de répartition observée et celle théorique. Sa formule générale est:

n \int_R [F_n(X) - F(X)] ^2 w(X) dF(X)

L’objet w(X) représente une fonction de pondération permettant de placer une sensibilité précise sur certains types d’observations. Ainsi, dans le cas du test de Cramér-von Mises w(X) = 1. Pour celui d’Anderson-Darling, w(X) = \frac{1}{F(X) \cdot (1 - F(X))} qui, paramétré ainsi, permet de donner plus d’influence aux faibles et fortes fréquences. C’est la raison pour laquelle nous disons que le test d’Anderson-Darling se base sur la valeur minimale et maximale de l’écart entre la fonction de distribution empirique et théorique contrairement au test de Kolmogorov-Smirnov qui se base uniquement sur la valeur maximale. Enfin, un autre exemple populaire est le cas w(X) = \frac{1}{1 - F(X)} qui sera plus adapté aux évènements rares.

Nous avons donc, pour le test d’Anderson-Darling,

n \int_R [F_n(X) - F(X)] ^2 w(X) dF(X) = n \int_R \frac{[F_n(X) - F(X)] ^2}{F(X) (1 - F(X))} dF(X)

Pour retrouver la formule d’usage du test d’Anderson-Darling, il faut réécrire l’intégrale sous la forme d’une somme de variables aléatoires uniformément distribuées, indépendantes et identiquement distribuées, en posant:

F_n(X) = G_n(t) = \frac{1}{n} \sum_{k = 1} ^n I(U_k \leq t) avec U_k = F(X_k), \forall k \in [1, n[

G_n(t) est alors la distribution empirique des (U_k)_{1 \leq k < n} et de loi uniforme U[0,1].

Par construction, nous avons,

G_n (t) = \frac{1}{n} \sum_{k = 1} ^n I(U_{k \leq t}) = \frac{k}{n} \cdot I(U_{k \leq t}), si G_n(t) \in [\frac{k}{n}, \frac{k+1}{n}]

En posant F(X) = t, Nous pouvons alors réécrire,

n \int_R \frac{[F_n(X) - F(X)] ^2}{F(X) (1 - F(X))} dF(X) = n \int_0 ^1 \frac{[G_n (t) - t] ^2}{t (1 - t)} dt

= n \int_0 ^1 \frac{[\frac{1}{n} \sum_{k = 1} ^n I(U_{k \leq t}) - t] ^2}{t (1 - t)} dt

= \frac{1}{n} \int_0 ^1 \frac{[\sum_{k = 1} ^n I(U_{k \leq t}) - \frac{t}{n}] ^2}{t (1 - t)} dt

= \frac{1}{n} \sum_{k = 0} ^{n - 1} \int_{\frac{k}{n}} ^{\frac{k+1}{n}} \frac{[k I(U_{k \leq t}) - \frac{t}{n}] ^2}{t (1 - t)} dt

Cette égalité constitue la base à partir de laquelle nous pouvons retrouver la formule de la statistique de test d’Anderson-Darling. Un raisonnement similaire permet également de retrouver celle du test de Cramér-von Mises.

\bullet Exemple:

Soit la variable aléatoire X suivante:

UPCi-dessous, l’histogramme construit à partir de X (en noir) permet de voir que visuellement la variable ne suit pas une loi normale. Nous affichons également sa densité de distribution empirique (courbe verte) et celle attendue dans le cadre d’une distribution gaussienne (courbe rouge).

UP

Afin de calculer la statistique de test d’Anderson-Darling, pour déterminer au sens statistique si notre variable aléatoire suit une loi normale, nous allons définir les termes suivants:

\mu = 6.42034

\sigma = 3.299319

Ces éléments calculés, nous pouvons construire le tableau récapitulatif des différentes phases de calcul ci-dessous:

add

En appliquant la formule de la statistique de test d’Anderson-Darling, nous obtenons:

A ^2 = - 20 - \frac{1}{20} \times [(2 \times 1 - 1) \times (-3.007026 - 1.83466855) + (2 \times 2 - 1) \times (-2.8259119 - 1.8084969) + \cdots + (2 \times 20 - 1 ) \times (-0.1739563 - 0.05070241) ]

= - 20 - \frac{- 424.1327}{20}

= 1.206637

Nous avons alors,

A ^* = (1 + \frac{0.75}{20} + \frac{2.25}{20 ^2}) \times 1.206637 = 1.043125 \times 1.206637 = 1.256873

En appliquant l’algorithme pour le calcul de la p-valeur, nous tombons sur le cas où A ^* > 0.6 et A ^* < 10, soit:

p = e ^{1.2937 - 5.709 \times 1.256873 + 0.0186 \times 1.256873 ^2} = 1 - e ^{-5.862598} = 0.002843845

Ce qui donne une p-valeur égale à 0.002844 < 5 \%. Nous rejetons donc H_0 et concluons que X ne suit pas une loi normale.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_univariate_sect037.htm

Fonction R: http://www.inside-r.org/packages/cran/nortest/docs/ad.test

\bullet Bibliographie:

– Asymptotic theory of certain « goodness-of-fit » criteria based on stochastic processes de Theordore Wilbur Anderson et Donald Allan Darling

– Tests de normalité, techniques empiriques et tests statistiques de Ricco Rakotomalala

– Statistique, dictionnaire encyclopédique de Yadolah Dodge

– Data mining et statistique décisionnelle. L’intelligence des données de Stéphane Tufféry

– Éléments d’analyse de la fiabilité et du contrôle de qualité. Statistiques appliquées par l’exemple de Ammar Grous.