Le test de Jarque-Bera

add

\bullet Présentation:

Publié en 1980 par Carlos Jarque et Anil K. Bera, le test de Jarque-Bera est une approche non paramétrique permettant de tester si une variable continue X suit une loi normale.

La particularité du test de Jarque-Bera repose sur le fait qu’il n’étudie pas directement l’adéquation à la loi normale mais plutôt simultanément si le coefficient d’asymétrie (appelé également coefficient of Skewness ou coefficient \beta_1 de Pearson) et le coefficient d’aplatissement (appelé également coefficient of Kurtosis ou coefficient \beta_2 de Pearson) sont tous deux égaux à ceux d’une loi normale.

Le test de Jarque-Bera reste néanmoins moins puissant que le test K ^2 D’Agostino-Pearson, lui-même basé sur une approche similaire, cependant il est bien plus simple à mettre en oeuvre. Enfin, il est reconnu comme étant plus efficace sur les grands échantillons que les petits.

\bullet Le test:

Hypothèse préliminaire: Variable continue.

Le test de Jarque-Bera se base sur le coefficient d’asymétrie \beta_1 et le coefficient d’aplatissement \beta_2. La statistique de test est alors:

JB = \frac{n}{6} (\beta_1^2 + \frac{(\beta_2 - 3) ^2}{4})

En rappelant,

\beta_1 = \frac{\mu_3}{\sigma ^3} = \frac{\frac{1}{n} \sum_{i = 1} ^n (X_i - \mu) ^3}{(\frac{1}{n} \sum_{i = 1} ^n (X_i - \mu) ^2) ^{\frac{3}{2}}}

\beta_2 = \frac{\mu_4}{\sigma ^4} = \frac{\frac{1}{n} \sum_{i = 1} ^n (X_i - \mu) ^4}{(\frac{1}{n} \sum_{i = 1} ^n (X_i - \mu) ^2) ^2}

Elle suit une loi du \chi ^2 à deux degrés de liberté et l’hypothèse H_0 est: « la variable suit une loi normale / \beta_1 = 0 et \beta_2 = 3« .

Ci-dessous la table de la loi du \chi ^2.

add

Tendance pour le rejet de H_0:

En résumé, nous acceptons H_0 lorsque JB \rightarrow 0 ce qui implique,

\frac{n}{6} [\beta_1 ^2 + \frac{(\beta_2 - 3) ^2}{4}] \rightarrow 0 \Rightarrow \beta_1 ^2 + \frac{(\beta_2 - 3) ^2}{4} \rightarrow 0

Soit que le coefficient d’asymétrie \beta \rightarrow 0 et le coefficient d’aplatissement \beta_2 \rightarrow 1 étant donné que la somme ne peut s’annuler car les deux membres sont toujours positifs par élévation au carré.

Pour le coefficient \beta_1, lorsque X suit une loi normale, il converge naturellement vers 0 traduisant une symétrie parfaite de la courbe de distribution. Néanmoins, la réciproque n’est pas avérée, par exemple la loi uniforme ou encore arc-sinus ont également (et c’est logique) un coefficient d’asymétrie valant 0. Nous rappelons que si \beta_1 > 0 cela implique que l’essentiel de la distribution tend vers la gauche, tandis que si \beta_1 < 0 alors elle tend vers la droite.

Pour le coefficient \beta_2, lorsque X suit une loi normale, il converge naturellement vers 3 traduisant un aplatissement progressif autour du centre de la distribution puis plus radical au niveau de ses queues. A noter que le coefficient \beta_2 est toujours supérieur à 1 et plus particulièrement il est relié à \beta_1 par la relation: \beta_2 \geq 1 + \beta_1 ^2. Nous rappelons que si \beta_2 \rightarrow \infty alors la courbe de distribution ressemble à un pic (nous parlons de courbe leptocurtique) et si \beta_2 \approx 1 alors elle est plate (nous parlons de courbe platicurtique).

Enfin, notons que le membre \frac{(\beta_2 - 3) ^2}{4} trouve son origine dans la normalisation du coefficient d’aplatissement qui consiste à corrige \beta_2 par -3. Nous avons alors,

\beta_2 > 1 \Rightarrow \beta_2 - 3 > -2 \Rightarrow (\beta - 3) ^2 > 4 \Rightarrow \frac{(\beta_2 - 3) ^2}{4} > 1

L’idée est donc de partir du coefficient normalisé d’aplatissement en conservant les mêmes bornes que sa version non normalisée.

\bullet Tendance lorsque n \longrightarrow \infty:

– Nous avons fait tourner cinq simulations afin d’étudier la robustesse du test de Jarque-Bera. Nous générons des échantillons de taille 10, 10^2, 10^3, 10^4 puis 10 ^5 selon une loi uniforme et nous étudions si le fait d’augmenter le paramètre n a une influence sur le fait d’accepter H_0 à tort.

add

Nous constatons que, à l’exception du cas N = 100, nous rejetons à chaque fois l’hypothèse H_0, ce qui est en adéquation avec les hypothèses fixées. Pour le cas N = 100, l’explication réside dans le fait que, comme nous l’avions souligné, le test de Jarque-Bera manque de puissance et est plus adapté aux grands échantillons.

– Nous avons fait tourner cinq simulations afin d’étudier la robustesse du test de Jarque-Bera. Nous générons des échantillons de taille 10, 10^3, 10^4 puis 10 ^5 selon une loi normale et nous étudions si le fait d’augmenter le paramètre n a une influence sur le fait de rejeter H_0 à tort.

add

Nous constatons que nous acceptons à chaque fois l’hypothèse H_0, ce qui est en adéquation avec les hypothèses fixées.

Nos simulations montrent bien que le test de Jarque-Bera n’est pas influencé par la convergence de n vers \infty.

\bullet Annexe théorique:

Nous proposons ici de démontrer les valeurs du coefficient d’asymétrie \beta_1 et du coefficient d’aplatissement \beta_2 dans le cas où X suit une loi normale en rappelant que E[X] = \mu et E[X ^2] = V(X) - E ^2[X] = \sigma ^2 - \mu ^2 par définition.

coefficient d’asymétrie:  \beta_1 = 0

\beta_1 = \frac{1}{\sigma ^3} \cdot E[X - E[X]] ^3

= \frac{1}{\sigma ^3} \cdot (E[X ^3] - 3 E[X] \cdot E[X ^2] + 3 E ^2[X] \cdot E[X] - E[X] ^3)

Nous avons,

E[X ^3] = \frac{1}{\sigma \cdot \sqrt{2 \pi}} \cdot \int_R x ^3 \cdot e ^{- \frac{1}{2} \cdot (\frac{x - \mu}{\sigma}) ^2} dx

Nous pouvons simplifier ce terme en effectuant le changement de variable t = \frac{X - \mu}{\sigma} \Rightarrow t \cdot \sigma + \mu = X \Rightarrow dx = \sigma \cdot dt, nous obtenons alors:

E[X ^3] = \frac{1}{\sigma \cdot \sqrt{2 \pi}} \cdot (\int_R (t \cdot \sigma) ^3 e ^{-\frac{t ^2}{2}} \cdot \sigma dt + 3 \int_R (t \cdot \sigma) ^2 \cdot \mu e ^{-\frac{t ^2}{2}} \cdot \sigma dt + 3 \int_R t \cdot \sigma \cdot \mu ^2 e ^{-\frac{t ^2}{2}} \cdot \sigma dt

= \frac{\sigma ^4}{\sigma \cdot \sqrt{2 \pi}} \int_R t ^3 e ^{- \frac{t ^2}{2}} dt + 3 \frac{\sigma ^3 \mu}{\sigma \cdot \sqrt{2 \pi}} \int_R t ^2 e ^{- \frac{t ^2}{2}} dt + 3 \frac{\sigma ^2 \mu ^2}{\sigma \cdot \sqrt{2 \pi}} \int_R t e ^{- \frac{t ^2}{2}} dt + \frac{\mu ^3 \sigma}{\sigma \cdot \sqrt{2 \pi}} \int_R e ^{- \frac{t ^2}{2}} dt

= \frac{\sigma ^4}{\sigma \cdot \sqrt{2 \pi}} \times 0 - 3 \frac{\sigma ^3 \mu}{\sigma \cdot \sqrt{2 \pi}} \times \sqrt{2 \pi} + 3 \frac{\sigma ^2 \mu ^2}{\sigma \cdot \sqrt{2 \pi}} \times 0 - \frac{\mu ^3 \sigma}{\sigma \cdot \sqrt{2 \pi}} \times \sqrt{2 \pi} dt

= 3 \sigma ^2 \mu + \mu ^3

Soit E [X ^3] = 3 \sigma ^2 \mu + \mu ^3, si nous insérons ce résultat dans le calcul de \gamma_1, nous avons:

\beta_1 = \frac{1}{\sigma ^3} \cdot E[X - E[X]] ^3

= \frac{1}{\sigma ^3} \cdot (E[X ^3] - 3 E[X] \cdot E[X ^2] + 3 E ^2[X] \cdot E[X] - E[X] ^3)

= \frac{1}{\sigma ^3} \times (3 \sigma ^2 \mu + \mu ^3 - 3 \mu \cdot (\sigma ^2 + \mu ^2) + 3 \mu ^2 \cdot \mu - \mu ^3)

= 0

\Rightarrow \beta_1 = 0

coefficient d’aplatissement: \beta_2 ' = 0

\gamma_2 ' = \frac{1}{\sigma ^4} \cdot E[X - E[X]] ^4

= \frac{1}{\sigma ^4} \cdot (E[X^4] - 4 E[X] \cdot E[X ^3] + 6 E ^2[X] \cdot E[X ^2] - 4 E ^3 [X] \cdot E[X] + E ^4 [X])

Il nous reste plus qu’à simplifier E[X ^4] = \frac{1}{\sigma \sqrt{2 \pi}} \cdot \int_R x ^4 e ^{- \frac{1}{2} \cdot (\frac{x - \mu}{\sigma}) ^2} dx.

En effectuant le changement de variable t = \frac{X - \mu}{\sigma} \Rightarrow t \cdot \sigma + \mu = X \Rightarrow dx = \sigma \cdot dt, nous obtenons que:

E[X ^4] = \frac{1}{\sigma \cdot \sqrt{2 \pi}} \cdot \sigma \cdot [\int_R (t \sigma) ^4 e ^{- \frac{t ^2}{2}} dt + 4 \int_R \mu \cdot (t \sigma) ^3 e ^{- \frac{t ^2}{2}} dt + 6 \int_R \mu ^2 \cdot (t \sigma) ^2 e ^{- \frac{t ^2}{2}} dt + 4 \int_R \mu ^3 \cdot t \sigma e ^{- \frac{t ^2}{2}} dt + \int_R \mu ^4 e ^{- \frac{t ^2}{2}} dt]

= \frac{\sigma ^4}{\sqrt{2 \pi}} \times 3 \sqrt{2 \pi} + \frac{4 \mu \sigma ^3}{\sqrt{2 \pi}} \times 0 + \frac{6 \mu ^2 \sigma ^2}{\sqrt{2 \pi}} \times \sqrt{2 \pi} + \frac{4 \mu ^3 \sigma ^4}{\sqrt{2 \pi}} \times 0 + \frac{\mu ^4}{\sqrt{2 \pi}} \times \sqrt{2 \pi}

= 3 \sigma ^4 + 6 \mu ^2 \sigma ^2 + \mu ^4

Nous avons alors,

\gamma_2 ' = \frac{1}{\sigma ^4} \cdot [3 \sigma ^4 + 6 \mu ^2 \sigma ^2 + \mu ^4 - 4 \mu \times (3 \sigma ^2 \mu + \mu ^3) + 6 \mu ^2 \times (\sigma ^2 + \mu ^2) - 4 \mu ^3 \times \mu + \mu ^4] = 3

\bullet Exemple:

Soit la variable aléatoire X suivante:

UPCi-dessous, l’histogramme construit à partir de X (en noir) permet de voir que visuellement la variable ne suit pas une loi normale. Nous affichons également sa densité de distribution empirique (courbe verte) et celle attendue dans le cadre d’une distribution gaussienne (courbe rouge).

UPAfin de calculer la statistique de test de jarque-Bera, pour déterminer au sens statistique si notre variable aléatoire suit une loi normale, nous allons définir les termes suivants:

\mu = 6.42034

\beta_1 = \frac{\frac{1}{20} \times \sum_{i = 1} ^{20} (X_i - 6.42034) ^3}{(\frac{1}{20} \times \sum_{i = 1} ^{20} (X_i - 6.42034) ^2) ^{\frac{3}{2}}} = \frac{-\frac{365.1395}{20}}{(\frac{206.8246}{20}) ^{\frac{3}{2}}} = \frac{-18.25698}{10.34123 ^{\frac{3}{2}}} = -0.5489979

\beta_2 = \frac{\frac{1}{20} \times \sum_{i = 1} ^{20} (X_i - 6.42034) ^4}{(\frac{1}{20} \times \sum_{i = 1} ^{20} (X_i - 6.42034) ^2) ^2} = \frac{-\frac{3667.497}{20}}{(\frac{206.8246}{20}) ^2} = \frac{183.3748}{10.34123 ^2} = 1.714728

Nous pouvons désormais calculer la statistique de test de Jarque-Bera:

JB = \frac{20}{6} \times [(-0.5489979) ^2 + \frac{(1.714728 - 3) ^2}{4}]

= \frac{20}{6} \times (0.3013987 + 0.412981)

= \frac{20}{6} \times 0.7143797

= 2.381266

Si nous reportons cette valeur à la table de la loi du \chi ^2 à deux degrés de libertés nous obtenons une p-valeur de 0.304 > 5\%. Nous ne pouvons rejeter l’hypothèse H_0 et concluons que X suit une loi normale.

\bullet Application informatique:

Procédure SAS: https://statcompute.wordpress.com/2015/05/22/sas-macro-for-jarque-bera-normality-test/

Package et fonction Rhttp://lojze.lugos.si/~darja/software/r/library/tseries/html/jarque.bera.test.html

\bullet Bibliographie:

– Efficient tests for normality, homoscedasticity and serial independence of regression residuals de Carlos Jarque et Anil K. Bera

– Tests de normalité, techniques empiriques et tests statistiques de Ricco Rakotomalala

– Data Mining et statistique décisionnelle. L’intelligence des données de Stéphane Tufféry