Le test de Savage

add

\bullet Présentation:

Né suite aux travaux de Leonard Jimmie Savage en 1954, le  test de Savage est une approche non paramétrique permettant de tester si X|_{Y = g_1}, \dots, X|_{Y = g_K}, les sous-échantillons d’une variable continue X distribuée en fonction des K \geq 2 groupes d’une variable qualitative Y, ont même fonction de répartition.

Le test de Savage se base sur le même principe que ceux de Ansari-Bradley, Conover, Siegel-Tukey et Klotz, à savoir la construction d’une fonction score répartissant la distribution des rangs de X autour de la position centrale symbolisée par leur moyenne.

Enfin, le test de Savage présente l’avantage d’être adapté aux formes particulières de distribution.

\bullet Le test:

Hypothèse préliminaire: variable continue distribuée selon K modalités d’une variable qualitative.

La formule de la fonction score intervenant pour calculer la statistique de test de Savage est:

f(R_i) = \sum_{i' = 1} ^{R_i} \frac{1}{n - i' + 1} - 1

La statistique de test a alors pour formule:

S = \frac{\sum_{k = 1} ^K \frac{1}{n_k} [\sum_{i = 1} ^{n_k} f(R_i) - n_k \overline{f(R)}] ^2 }{T ^2}

Avec T ^2 = \frac{\sum_{i = 1} ^n [f(R_i) - \overline{f(R)}] ^2}{n - 1}.

Elle suit une loi du \chi ^2  à (K - 1) degrés de liberté et l’hypothèse H_0 est: « Distribution identique de la variable au sein des K groupes / F_1 = \cdots = F_K« .

Ci-dessous le tableau de la loi du \chi ^2.

addTendance pour le rejet de H_0:

Plus la statistique de test S de Savage est grande et plus nous avons de chance de rejeter H_0, ce qui revient à dire que,

\sum_{k = 1} ^K \frac{1}{n_k} [\sum_{i = 1} ^{n_k} (f(R|_{Y = g_k}))_i - n_k \overline{f(R)}] ^2 \rightarrow \infty \Rightarrow rejet de H_0

Ce qui implique,

\exists k / \frac{1}{n_k} [\sum_{i = 1} ^{n_k} (f(R|_{Y = g_k}))_i - n_k \overline{f(R)}] ^2 \rightarrow \infty

\Rightarrow \exists k / \sum_{i = 1} ^{n_k} (f(R|_{Y = g_k}))_i >>>> n_k \overline{f(R)}

Soit que la somme des rangs pour l’un des groupes est nettement plus grande que la moyenne des rangs pondérés, impliquant que l’une des distributions est nettement différente des autres.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous proposons ici de vérifier si le test de Savage est sensible aux grands échantillons ou non. Étant donné la formule de la statistique de test, et qui fait intervenir régulièrement les effectifs n_k des différents groupes, il semblerait que ce soit le cas.

Le tableau ci-dessous présente l’évolution des p-valeurs associées aux statistiques de test calculées sur plusieurs simulations dans le cas où les distribution sont différentes d’un groupe à l’autre.

add

Globalement, quelque soit la taille de l’échantillon, le test statistique rejette H_0, ce qui est en accords avec nos hypothèses.

Procédons à la même expérience mais cette fois-ci dans un cas où les différentes distributions ne devraient pas être statistiquement différentes. Le tableau ci-dessous présente ces résultats.

add

Jusqu’à N = 1 000 nous restons cohérent avec nos hypothèses, cependant nous voyons qu’à partir d’un échantillon de taille 10 000, le test rejette H_0 à tort.

Nous en déduisons que le test de Savage est influencé par la taille de l’échantillon.

\bullet Annexe théorique:

Cette partie de l’article présente une esquisse des démonstrations pour la fonction génératrice, l’espérance et la variance de la statistique de test S de Savage dans le cas où le nombre de groupe G = 2.

Démonstration de la fonction génératrice:

Sous l’hypothèse nulle H_0 chacune des \begin{pmatrix} n_1 + n_2 \\ n_1 \end{pmatrix} combinaisons des rangs R  associés à X sont équivalentes. La probabilité des différentes valeurs de S est alors obtenue comme produit des 1 / \begin{pmatrix} n_1 + n_2 \\ n_1 \end{pmatrix}.

De ce constat, nous pouvons écrire la probabilité de la manière suivante:

P(S | n_1, n_2 + 1) = f(S | n_1, n_2) / \begin{pmatrix} \\ n_1 + n_2 \\ n_1 \end{pmatrix}

, avec la fonction de densité:

f(S | n_1, n_2 + 1) = f(S | n_1, n_2) + f(S - N - 1 | n_1 - 1, n_2 + 1)

, en posant n_1 + n_2 = 2N ou n_1 + n_2 = 2N + 1.

Le premier terme étant la fréquence de S quand S ne contient pas l’élément de rang N + 1 et le second le cas inverse.

Alternativement, nous pouvons écrire,

(n_1 + n_2 + 1) P(S | n_1, n_2 + 1) = (n_2 + 1) P(S | n_1, n_2) + n_1 P(S - N - 1 |n_1 - 1, n_2 + 1)

La fonction génératrice est alors:

g(u,v) = \prod_{i = 1} ^N ( 1 + u ^i v) ^2 si n_1 + n_2 = 2 N

g(u,v) = ( 1 + u ^{n + 1} v) \prod_{i = 1} ^N ( 1 + u ^i v) ^2 si n_1 + n_2 = 2 N + 1

, dont la fonction de densité f(S |n_1, n_2) est s’inscrit comme étant le coefficient u ^S v ^{n_1}.

L’espérance et la variance de S:

En reprenant la notation n_1 + n_2 = 2 N, nous avons:

E[S] = n_1 E_1(r) = \frac{n_1 (n_1 + n_2 + 2)}{4}

, Avec E_1[r] l’espérance basée sur l’intégrale choisie aléatoirement parmi les N premières intégrales.

En posant:

E_1 [r ^2], l’espérance basée sur le carré de l’une des intégrales choisie aléatoirement parmi les N premières,

E_1 [rs], l’espérance basée sur le produit de deux intégrales distinctes et choisies aléatoirement parmi les N premières,

E_2 [rs], l’espérance basée sur le produit de deux intégrales distinctes (sous contrainte d’être séparées au moins par un pas de deux) et choisies aléatoirement parmi les N premières,

Nous avons,

E[S ^2] = n_1 E_1 (r ^2) = n_1 E_1 (r ^2) + n_1 (n_1 - 1) E[rs]

 = \frac{(N + 1) (2 N + 1)}{6} + n_1 (n_1 - 1) [2 \begin{pmatrix} N \\ 2 \end{pmatrix} E_1 (rs) + 2 \begin{pmatrix} N \\ 2 \end{pmatrix} ^2 E_2 (rs)] / 2 \begin{pmatrix} 2 N \\ 2 \end{pmatrix}

 = \frac{(N + 1) (2 N + 1)}{6} + n_1 (n_1 - 1) [2 \begin{pmatrix} N \\2 \end{pmatrix} \frac{(3 N + 2) (N + 1)}{12} + 2 \begin{pmatrix} N \\ 2 \end{pmatrix} ^2 \frac{(N + 1) ^4}{4}] / 2 \begin{pmatrix} 2 N \\ 2 \end{pmatrix}

 = [n_1 \frac{(N + 1) (2 N + 1)}{6}] + [ \frac{n_1 (n_1 - 1) (N - 1) (3 N ^2 + N - 1)}{6 (2 N - 1)}]

La variance peut alors se calculer à son tour,

V(S) = E[S ^2] - E[S] ^2 = \frac{n_1 n_2 (n_ 1 + n_2 - 2) (n_1 + n_2 + 2)}{48 (n_1 + n_2 - 1)}

\bullet Exemple:

Soit l’échantillon ci-dessous:

add

Nous présentons ci-dessous les trois courbes de densité liées à X|_{Y = 1} (en vert), X_{Y = 2} (en bleu) et X|_{Y = 3} (en rouge):

add

Cette représentation des données permet de voir que les si les distributions de X|_{Y = 2} et X|_{Y = 3} semblent plus ou moins similaires, elles semblent différer de celle de X|_{Y = 1}. Vérifions-le statistiquement.

Dans un premier temps, présentons le vecteur des rangs R associés à X en fonction des trois groupes de Y:

R|_{Y = 1} = (13,12,2,14,9,1,5)

\Rightarrow f(R|_{Y = 1}) = (\sum_{i = 1} ^{13} \frac{1}{20 - i + 1} - 1, \cdots, \sum_{i = 1} ^5 \frac{1}{20 - i + 1} - 1)

\Rightarrow f(R|_{Y = 1}) = (0.004882514,-0.1201175,-0.8973684,0.1477397,-0.4221377,-0.95,-0.7204893)

R|_{Y = 2} = (8,17,19,4,20,16)

\Rightarrow f(R|_{Y = 2}) = (\sum_{i = 1} ^8 \frac{1}{20 - i + 1} - 1, \cdots, \sum_{i = 1} ^{16} \frac{1}{20 - i + 1} - 1)

\Rightarrow f(R|_{Y = 2}) = (-0.505471,0.7644063,1.59774,-0.7829893,2.59774,0.5144063)

R|_{Y = 3} = (7,11,3,6,15,10,18)

\Rightarrow f(R|_{Y = 3}) = (\sum_{i = 1} ^7 \frac{1}{20 - i + 1} - 1, \cdots, \sum_{i = 1} ^{18} \frac{1}{20 - i + 1} - 1)

\Rightarrow f(R|_{Y = 3}) = (-0.5823941,-0.2312286,-0.8418129,-0.6538227,0.3144063,-0.3312286,1.09774)

Et,

\overline{f(R)} = -0.00000000000000001663708

Calculons le dénominateur T ^2 et le numérateur. Pour le dénominateur,

T ^2 = \frac{\sum_{i = 1} ^{20} [f(R))_i - (-9.5)] ^2}{20-1} = \frac{16.40226}{19} = 0.8632769

Et le numérateur,

\sum_{k = 1} ^3 \frac{1}{n_k} [\sum_{i = 1} ^{n_k} (f(R|_{Y = k}))_i - n_k \times (-9.5)] ^2

= \frac{[\sum_{i = 1} ^7 (f(R|_{Y = 1}))_i + 7 \times 9.5] ^2}{7} + \frac{[\sum_{i = 1} ^6 (f(R|_{Y = 2}))_i + 6 \times 9.5] ^2}{6} + \frac{[\sum_{i = 1} ^7 (f(R|_{Y = 3}))_i + 7 \times 9.5] ^2}{7}

= 1.249536 + 2.920198 + 0.2155459

= 4.38528

Par conséquent,

S = \frac{4.38528}{0.8632769} = 5.079807

Si nous reportons cette statistique de test à la table de la loi du \chi ^2 à 3 - 1 = 2 degrés de liberté, nous obtenons une p-valeur de 0.07887 > 5\%. Nous en concluons que nos trois distributions sont semblables.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/statug/65328/HTML/default/viewer.htm#statug_npar1way_syntax04.htm

Package et fonction R: http://www.inside-r.org/packages/cran/coin/docs/ansari_test

\bullet Bibliographie: 

– Comparaison de populations, tests non paramètriques de Ricco Rakotomalala

– Rank sum tests for dispersion de A. R. Ansari et Richard A. Bradley