Les tests de symétrie

add.png

\bullet Présentation:

Nous comptons trois tests de symétrie distincts: le test de Wilcoxon, le test de Van der Waerden et celui basé sur le coefficient d’asymétrie. Il s’agit d’approches non paramétriques dont le but est de tester si la distribution d’une variable continue X est symétrique.

Chacun de ces trois tests à ses caractéristiques propres,

– le test de symétrie basé sur le coefficient d’asymétrie reste le plus intuitif,

– le test de symétrie de Wilcoxon peut être vu comme un cas particulier du test de Wilcoxon des rangs signés pour données appariées et est considéré comme conservateur,

– le test de symétrie de Van der Waerden est plus puissant que le test de symétrie de Wilcoxon.

\bullet Les tests:

Hypothèse préliminaire: Variable continue.

Le test du coefficient d’asymétrie

Formule de la statistique du test de symétrie basé sur le coefficient d’asymétrie:

S_{\gamma_1} = | \frac{\frac{\gamma_1}{(\sigma ^2) ^3}}{\sqrt{var(G_1)}} |

Avec,

\gamma_1 = \frac{1}{n} \sum_{i = 1} ^n (X_i - \overline{X}) ^3, le coefficient d’asymétrie,

\sigma ^2 = \frac{1}{n} \sum_{i = 1}^n (X_i - \overline{X}) ^2, la variance,

var(G_1) = \frac{6 n (n - 1)}{(n - 2) (n + 1) (n + 3)}, la variance du coefficient d’asymétrie.

Elle suit une loi normale centrée-réduite et l’hypothèse H_0 est: « La distribution de la variable est symétrique ».

Tendance pour le rejet de H_0:

Plus la statistique de test S_{\gamma_1} \rightarrow \infty et plus nous avons de chance de rejeter H_0. Ce qui revient à dire,

S_{\gamma_1} \rightarrow \infty

\Rightarrow \frac{\frac{\gamma_1}{(\sigma ^2) ^3}}{\sqrt{var(G_1)}} \rightarrow \infty

\Rightarrow \gamma_1 \rightarrow \infty ou var(X) \approx 0

Le premier cas est le plus intéressant, il s’agit de la convergence du coefficient d’asymétrie vers l’infini, traduisant ainsi une forte asymétrie et donc le rejet de H_0. A contrario, un coefficient d’asymétrie \gamma_1 proche de 0 traduit une symétrie parfaite de la distribution de X.

Pour comprendre le coefficient d’asymétrie (de formule \frac{1}{n} \sum_{i = 1} ^n (X_i - \overline{X}) ^3), il faut savoir que ce dernier étudie à quel point les valeurs de X s’éloigne de la moyenne en accentuant les cas les plus distants grâce à la puissance au cube. Cette dernière possède permet également de voir comment la distribution de X se compense de part et d’autre de la moyenne. Ainsi, si les termes ne se compensent pas c’est que la distribution n’est pas symétrique, rendant en ce sens le test de symétrie basé sur le coefficient d’asymétrie particulièrement intuitif.

Le test de symétrie de Wilcoxon

Formule de la statistique du test de symétrie de Wilcoxon:

Z = \frac{|S ^+ - E[S ^+]|}{\sqrt{V(S ^+)}}

Avec,

E[S ^+] = \frac{n (n + 1)}{4}

V(S ^+) = \frac{n (n + 1) (2 n + 1)}{24}

S ^+ = \sum_{i \in I^+} R_i

Où le vecteur R est construit à partir des rangs de | X - \theta | avec \theta valeur de référence à partir de laquelle la symétrie est testée.

I ^+ est alors la restriction à l’ensemble des individus tel que I ^+ = \lbrace i \in [1,n] / X_i - \theta > 0 \rbrace

La statistique de test suit une loi normale centrée-réduite et l’hypothèse H_0 est: « La distribution de la variable est symétrique / f(X + \theta) = f (X - \theta)« .

Tendance pour le rejet de H_0:

Plus la statistique de test Z est grande et plus nous avons de chance de rejeter H_0. Ce qui revient à dire que,

Z \rightarrow \infty

\Rightarrow \frac{| S ^+ - E[S ^+] |}{\sqrt{V(S ^+)}} \rightarrow \infty

\Rightarrow S ^+ - E[S ^+] \rightarrow \infty ou \sqrt{V(S ^+)} \rightarrow 0

\Rightarrow S ^+ >>>> E[S ^+] ou V(S ^+) \approx 0

Le premier cas est celui qui nous intéresse à savoir celui où la somme des rangs remplissant le critère (X - \theta) > 0 \Rightarrow X > \theta est nettement plus grande que l’espérance. Si une telle situation se présente cela revient à dire que globalement  la distribution par rapport à \theta est asymétrique car nous comptons plus d’observations d’un côté de la distribution que l’espérance le prévoit.

Le test de symétrie de Van der Waerden

Formule de la statistique du test de symétrie de Van der Waerden:

Z = \frac{|V ^+ - E[V ^+]|}{\sqrt{var(V ^+)}}

Avec,

E[V ^+] = \frac{1}{2} \sum_{i = 1} ^n \Phi(\frac{1}{2} + \frac{1}{2} \frac{i}{n + 1})

var(V ^+) = \frac{1}{4} \sum_{i = 1} ^n [\Phi(\frac{1}{2} + \frac{1}{2} \frac{i}{n + 1})] ^2

V ^+ = \sum_{i \in I ^+} \Phi (\frac{1}{2} + \frac{1}{2} \cdot \frac{R_i}{n + 1})

Où le vecteur R est construit à partir des rangs de | X - \theta | avec \theta valeur de référence à partir de laquelle la symétrie est testée.

I ^+ est alors la restriction à l’ensemble des individus tel que I ^+ = \lbrace i \in [1,n] / X_i - \theta > 0 \rbrace

Enfin, \Phi représente la fonction inverse de la loi normale centrée réduite. 

La statistique de test suit une loi centrée-réduite et l’hypothèse H_0 est: « La distribution de la variable est symétrique / f(X + \theta) = f (X - \theta)« .

Tendance pour le rejet de H_0:

Plus la statistique de test Z est grande et plus nous avons de chance de rejeter H_0. Ce qui revient à dire que,

Z \rightarrow \infty

\Rightarrow \frac{| V ^+ - E[V ^+] |}{\sqrt{var(V ^+)}} \rightarrow \infty

\Rightarrow |V ^+ - E[V ^+]| \rightarrow \infty ou \sqrt{var(V ^+)} \rightarrow 0

\Rightarrow V ^+ >>>> E[V ^+] ou var(V ^+) \approx 0

Le premier cas est celui qui nous intéresse à savoir celui où la somme des rangs (transformé par la fonction \Phi) remplissant le critère (X - \theta) > 0 \Rightarrow X > \theta est nettement plus grande que l’espérance. Si une telle situation se présente cela revient à dire que globalement  la distribution par rapport à \theta est asymétrique car nous comptons plus d’observations d’un côté de la distribution que l’espérance le prévoit.

Ci-dessous la table de la loi normale centrée-réduite.

add.png

\bullet Tendance lorsque n \longrightarrow \infty:

Nous proposons ici d’observer le comportement des tests de symétrie basé sur le coefficient d’asymétrie, de Wilcoxon et de Van der Waerden en fonction de la taille d’échantillon.

– Nous avons fait tourner cinq simulations d’échantillons de taille 10, 100, 1 000, 10 000, 100 000 selon une loi de distribution asymétrique. Les résultats obtenus pour les trois tests sont dans le tableau ci-dessous.

add

Nous constatons que nous rejetons à chaque fois l’hypothèse H_0, ce qui est en adéquation avec la distribution de l’échantillon.

– Nous procédons à la même expérience mais cette-fois selon une loi de distribution globalement symétrique. Les résultats obtenus pour les trois tests sont dans le tableau ci-dessous.

add

Nous constatons qu’en fonction du test le seuil à partir duquel nous rejetons H_0 à tort varie.

Ainsi,

– pour le test de symétrie basé sur le coefficient d’asymétrie le seuil se situe entre n = 10 et n = 100,

– pour celui de Wilcoxon, le seuil est plus haut et situé entre n = 100 et n = 1000,

– pour le test de symétrie de Van der Waerden, il grimpe encore en étant situé entre n = 1000 et n = 10000.

Nous en concluons que, malgré que les trois tests soient influencés par la taille d’échantillon, celui de Van der Waerden semble présenter la meilleure résistance.

\bullet Annexe théorique:

\bullet Calcul de E, V pour le test de symétrie de Wilcoxon:

La statistique S ^+ peut être vue comme la somme de n variables de Bernouilli indépendantes Z_i conditionnellement aux rangs. Sur ce constat là nous pouvons calculer facilement E, V à partir de E[Z_i] = \frac{1}{2} et V(Z_i) = \frac{1}{4}.

E(W / R) = \sum_{i = 1} ^n R_i \cdot E[Z_i] = E[Z_i] \cdot \sum_{i = 1} ^n R_i = \frac{1}{2} \times \frac{n \cdot (n + 1)}{2} = \frac{n \cdot (n + 1)}{4}

V(W / R) = \sum_{i = 1} ^n R_i ^2 \cdot V[Z_i]

= V[Z_i] \cdot \sum_{i = 1} ^n R_i ^2

 = \frac{1}{4} \times \frac{n \cdot (n + 1) \cdot (2n + 1)}{6}

= \frac{n \cdot (n + 1) \cdot (2n + 1)}{24}

\bullet Calcul de E, var pour le test de symétrie de Van der Waerden:

La statistique V ^+ peut être vue comme la somme de n variables de Bernouilli indépendantes Z_i conditionnellement aux rangs. Sur ce constat là nous pouvons calculer facilement E, V à partir de E[Z_i] = \frac{1}{2} et V(Z_i) = \frac{1}{4}.

E[V ^+ / R] = \sum_{i = 1} ^n \Phi(.) \cdot E[Z_i] = E[Z_i] \cdot \sum_{i = 1} ^n \Phi(.) = \frac{1}{2} \sum_{i = 1} ^n \Phi(\frac{1}{2} + \frac{1}{2} \frac{i}{n + 1})

var(V ^+ / R) = \sum_{i = 1} ^n \Phi ^2 \cdot V[Z_i] = \frac{1}{4} \sum_{i = 1} ^n \Phi(\frac{1}{2} + \frac{1}{2} \frac{i}{n + 1}) ^2

\bullet Exemple:

Soit la variable aléatoire X suivante:

UP

Ci-dessous, l’histogramme construit à partir de X (en noir) permet de voir que visuellement la symétrie de X peut être remis en question. Nous affichons également sa densité de distribution empirique (courbe verte) et celle attendue dans le cadre d’une distribution gaussienne (courbe rouge).

UP

Le test du coefficient d’asymétrie

 Commençons par calculer la moyenne de X,

\overline{X} = 0.642034

Nous avons donc au dénominateur,

\sqrt{var(G_1)} = \sqrt{\frac{6 \times 20 \times (20 - 1)}{(20 - 2) \times (20 + 1) \times (20 + 3)}}

= \sqrt{\frac{6 \times 20 \times 19}{18 \times 21 \times 23}}

= \sqrt{\frac{2280}{8694}}

= \sqrt{0.2622498}

= 0.5121033

Et au numérateur,

\frac{\gamma_1}{(\sigma ^2) ^3} = \frac{\frac{1}{20} \times \sum_{i = 1} ^{20} (X_i - 0.642034) ^3}{(\frac{1}{20} \times \sum_{i = 1} ^{20} (X_i - 0.642034) ^2) ^{\frac{3}{2}}}

= \frac{0.05 \times [(-5.44494) ^2 + \cdots + 3.28556 ^3]}{(0.05 \times [(-5.44494) ^2 + \cdots + 3.28556 ^2]) ^{\frac{3}{2}}}

= \frac{0.05 \times (-365.1395)}{(0.05 \times 206.8246) ^{\frac{3}{2}}}

= \frac{- 18.25698}{33.2551}

= - 0.5489979

Par conséquent,

S_{\gamma_1} = | \frac{-0.5489979}{0.5121033} | = 1.072045

Si nous reportons la valeur de cette statistique de test à la table de la loi normale centrée-réduite, nous obtenons p = 0.2836998 > 5\%. Nous en concluons que nous ne pouvons rejeter H_0 et que X a une distribution symétrique.

Le test de symétrie de Wilcoxon

La première étape consiste à poser \theta = \overline{X} = 6.42034. Nous pouvons désormais calculer les différents objets nécessaires au calcul de la statistique du test de symétrie de Wilcoxon.

| X - 6.42034 | = (5.44494, 5.15044, \cdots, 3.22856, 3.28556)

\Rightarrow R = rang(| X - 6.42034 |) = (20, 19, \dots, 14, 15)

Maintenant, déterminons l’ensemble des observations i \in [1,20] remplissant la condition (X_i - 6.42034) > 0,

I ^+ = \lbrace 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 \rbrace

Nous pouvons calculer maintenant l’objet S ^+,

S ^+ = \sum_{i \in I ^+} R_i =  3 + 5 + 6 + 8 +9 + 10 + 11 + 12 + 13 + 14 + 15 = 106

Reste l’espérance et la variance pour le calcul de la statistique de test,

E[S ^+] = \frac{20 \times (20 + 1)}{4} = \frac{20 \times 21}{4} = \frac{420}{4} = 105

V(S ^+) = \frac{20 \times (20 + 1) \times (2 \times 20 + 1}{24} = \frac{20 \times 21 \times 41}{24} = \frac{17220}{24} = 717.5

Et donc,

Z = \frac{|106- 105|}{\sqrt{717.5}} = \frac{1}{26.78619} = 0.03733267

Si nous reportons cette valeur de la statistique de test à la loi normale centrée-réduite, nous obtenons une p-valeur p = 0.9702198 > 5\%. Nous en concluons que nous ne pouvons rejeter H_0 soit que la distribution de X présente une symétrie par rapport à la moyenne.

Le test de symétrie de Van der Waerden

La première étape consiste à poser \theta = \overline{X} = 6.42034. Nous pouvons désormais calculer les différents objets nécessaire au calcul de la statistique du test de symétrie de Van der Waerden.

| X - 6.42034 | = (5.44494, 5.15044, \cdots, 3.22856, 3.28556)

\Rightarrow R = rang(| X - 6.42034 |) = (20, 19, \dots, 14, 15)

\Rightarrow \Phi(\frac{1}{2} + \frac{1}{2} \times \frac{R}{21}) = (1.9807524, 1.6683912, \cdots, 0.9674216, 1.0675705)

Maintenant, déterminons l’ensemble des observations i \in [1,20] remplissant la condition (X_i - 6.42034) > 0,

I ^+ = \lbrace 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 \rbrace

Nous pouvons calculer maintenant l’objet V ^+,

V ^+ = 0.1800124 + 0.3029804 + 0.3661064 + 0.4972006 + 0.5659488 + 0.6374842 + 0.7124430 + 0.7916386 + 0.8761428 + 0.9674216 + 1.0675705

= 6.964949

Reste l’espérance et la variance pour le calcul de la statistique de test,

E[V ^+] = \frac{1}{2} \times \sum_{i = 1} ^{20} \Phi(\frac{1}{2} + \frac{1}{2} \times \frac{i}{21})

= \frac{1}{2} \times (0.0597171 + 0.1196481 + \cdots + 1.6683912 + 1.9807524)

= \frac{15.41939}{2}

= 7.709696

var(V ^+) = \frac{1}{4} \times [0.0597171 ^2 + 0.1196481 ^2 + \cdots + 1.6683912 ^2 + 1.9807524 ^2]

= \frac{17.43073}{4}

= 4.357682

Et donc,

Z = \frac{|6.964949 - 7.709696|}{\sqrt{4.357682}} = \frac{0.7447469}{2.087506} = 0.3567639

Si nous reportons cette valeur de la statistique de test à la loi normale centrée-réduite, nous obtenons une p-valeur p = 0.7212685 > 5\%. Nous en concluons que nous ne pouvons rejeter H_0 soit que la distribution de X présente une symétrie par rapport à la moyenne.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_univariate_sect008.htm

Package et fonction R:

Symetrie.Tests = function (X) {

# Le présent programme calcul les tests de symétrie basé sur le coefficient d’asymétrie, de Wilcoxon et de Van der Waerden pour le vecteur X. La valeur theta de référence pour les tests de Wilcoxon et de Van der Waerden est la moyenne de X.

# Gestion des données manquantes et récupération des statistiques de base
X = na.omit(X)
n = length(X)
m = mean(X)

# … basé sur le coefficient d’asymétrie
b1 = ((1/n)*sum((X-m)^3))/(((1/n)*sum((X-m)^2))^(3/2))
sigma1 = (6*n*(n-1))/((n-2)*(n+1)*(n+3))
S_g = abs(b1/sqrt(sigma1))
p = 2*pnorm(S_g,0,1,lower.tail=FALSE)

# … de Wilcoxon
I = which((X – m) > 0,arr.ind = TRUE)
R = rank(abs(X – m))
S = sum(R[I])
E = (n*(n+1))/4
V = (n*(n+1)*(2*n+1))/24
Z1 = abs(S – E)/sqrt(V)
p1 = 2*pnorm(Z1,0,1,lower.tail=FALSE)

# … de Van der Waerden
Phi = qnorm(0.5+0.5*(R/(n+1)))
VW = sum(Phi[I])
Phi_n = qnorm(0.5+0.5*((1:n)/(n+1)))
E = (1/2)*sum(Phi_n)
V = (1/4)*sum((Phi_n)^2)
Z2 = abs(VW – E)/sqrt(V)
p2 = 2*pnorm(Z2,0,1,lower.tail=FALSE)

# Création et impression de la matrice de résultats
Resultats = data.frame(N = n, Moyenne = m, Asymetrie = S_g, p_Asymetrie = p, Wilcoxon = Z1, p_Wilcoxon = p1, Waerden = Z2, p_Waerden = p2)
return(Resultats)

}

\bullet Bibliographie:

– Tests de normalité, techniques empiriques et tests statistiques de Ricco Rakotomalala

– Individual comparisons by ranking methods de Franck Wilcoxon

– Probabilités, analyse des données et statistique de Gilbert Saporta

– Comparing measures of sample skewness and kurtosis de D. N. Joanes et C. A. Gill