Le test de Cramér-von Mises

add\bullet Présentation:

Né en 1930 suite aux travaux de Harald Cramér et Richard Edler von Mises, le test de Cramér-von Mises, également nommé critère de Cramér-von Mises, est une approche non paramétrique permettant de tester si une variable continue X suit une loi de distribution fixée. Nous parlons alors de test d’ajustement de Cramér-von Mises.

C’est grâce aux travaux de Theodore Wilbur Anderson en 1962 que le test de Cramér-von Mises se voit renforcé d’une nouvelle compétence visant à tester si deux sous-échantillons X|_{Y = 1}, X|_{Y = 2} d’une variable continue X restreinte aux deux groupes d’une variable qualitative Y suivent la même loi de distribution. Nous parlons alors de test d’homogénéité de Cramér-von Mises.

Le test de Cramér-von Mises peut être vu comme une version plus puissante du test de Kolmogorov-Smirnov. Les deux tests se basent sur l’écart entre les deux fonctions de répartition que nous souhaitons comparer, la seule différence étant que le second se base sur la valeur maximale de cette différence tandis que le premier se base sur la somme des différences. Ainsi, si le test de Kolmogorov-Smirnov est sensible aux outliers, le second l’est beaucoup moins voir pas du tout.

\bullet Le test:

Hypothèse préliminaire: variable(s) continue(s).

Cas à 1 échantillon: le test d’ajustement de Cramér-von Mises

Soit F_n et F ^* les fonctions de répartition que nous cherchons à comparer et respectivement associées à X (distribution empirique observée) et la loi de distribution de référence fixée (distribution théorique).

La statistique du test d’ajustement de Cramér-von Mises est:

n w_n ^2= n \int_{- \infty} ^{+ \infty} [ F_n(X) - F ^*(X) ]^2 d F ^*(X)

Dans le cas du test d’ajustement de Cramér-von Mises, la statistique de test peut alors se simplifier en:

n w_n ^2 = \frac{1}{12 \cdot n} + \sum_{i = 1} ^n [\frac{F(X_i) - (2 \cdot i - 1)}{2 \cdot n}] ^2

Elle suit une loi de Cramér-von Mises à n degrés de liberté. L’hypothèse H_0 est: « Les deux fonctions de répartition sont équivalentes / F_n = F *« .

Cas à 2 échantillons: le test d’homogénéité de Cramér-von Mises

Soit F et G les fonctions de répartition que nous cherchons à comparer et respectivement associées aux variables X|_{Y = 1} et X|_{Y = 2}.

La statistique du test d’homogénéité de Cramér-von Mises est:

T = \frac{n_1 \times n_2}{n} \int_{- \infty} ^{+ \infty} [F(X) - G(X)]^2 d H_{n_1 + n_2} (X)

Dans le cas du test d’ajustement de Cramér-von Mises, et en posant R le vecteur de rangs associé à X, la statistique de test peut se simplifier en:

T = \frac{n_1 \cdot \sum_{i_1 = 1} ^{n_1} ((R|_{Y = 1})_{i_1} - i_1) ^2 + n_2 \cdot \sum_{i_2 = 1} ^{n_2} ((R|_{Y = 2})_{i_2} - i_2) ^2}{n_1 \cdot n_2 \cdot n} - \frac{4 \cdot n_1 \cdot n_2 - 1}{6 \cdot n}

Elle suit une loi d’Anderson à (n_1, n_2) degrés de liberté. L’hypothèse H_0 est: « Les deux fonctions de répartition sont équivalentes / F = G« .

Ci-dessous la table d’Anderson:

addTendance pour rejeter H_0 pour les deux versions du test:

En partant des formules d’origine aussi bien pour le test d’ajustement que d’homogénéité de Cramér-von Mises,

n w_n ^2= n \int_{- \infty} ^{+ \infty} [F_n(X) - F ^*(X)]^2 d F ^* (X)

T = \frac{n_1 \times n_2}{n_1 + n_2} \int_{- \infty} ^{+ \infty} [F(X) - G(X)]^2 d H_{n_1, n_2} (X)

, la conclusion reste la même. Plus la statistique de test est petite et plus nous avons de chance d’accepter H_0 et inversement pour son rejet. La logique est immédiate car si,

F(X) \rightarrow G(X)

, alors l’intégrale tend vers 0.

\bullet Tendance lorsque n \longrightarrow \infty:

Le test de Cramér-von Mises est basé sur le même principe que celui de Kolmogorov-Smirnov qui ne semble pas influencé par les grands échantillons. Par conséquent, il est fort probable que lui-même ne le soit pas. Etant donné que la table d’Anderson pour le test d’homogénéité de Cramér-von Mises n’est pas implémentée sur la plupart des logiciels statistiques, nous ne pourrons tester que le test d’ajustement de Cramér-von Mises.

Nous proposons deux approches, la première consiste à simuler des échantillons qui suivent une loi normale et de taille croissante. Nous obtenons:

N = 10, p > 0.250

N = 100, p > 0.250

N = 1 000, p > 0.250

N = 10 000, p > 0.250

N = 100 000, p > 0.250

N = 1 000 000, p > 0.250

Nous remarquons que quelque soit la taille de l’échantillon nous ne rejettons pas H_0 conformément à nos hypothèses de simulation.

Désormais, nous simulons des échantillons qui suivent une loi uniforme et de taille croissante. Nous obtenons:

N = 10, p > 0.250

N = 100, p < 0.005

N = 1 000, p < 0.005

N = 10 000, p < 0.005

N = 100 000, p < 0.005

N = 1 000 000, p < 0.005

A l’exception du cas N = 10 (dont l’explication est la faible taille de l’échantillon), nous remarquons que quelque soit la taille de l’échantillon nous rejettons H_0 conformément à nos hypothèses de simulation.

Il semblerait que le test d’ajustement de Cramér-von Mises ne soit pas atteint par les grands échantillons.

\bullet Annexe théorique:

Nous nous proposons ici de justifier, pour le T d’Anderson, l’égalité suivante:

\frac{n_1 \times n_2}{n} \int_{- \infty} ^{+ \infty} [F(X) + G(X)]^2 d H_{n_1 + n_2} (X) = \frac{n_1 \cdot \sum_{i_1 = 1} ^{n_1} [(R|_{Y = 1})_{i_1} - i_1] ^2 + n_2 \cdot \sum_{i_2 = 1} ^{n_2} [(R|_{Y = 2})_{i_2} - i_2] ^2}{n_1 \cdot n_2 \cdot n} - \frac{4 \cdot n_1 \cdot n_2 - 1}{6 \cdot n}

Partons de la formule de base:

n w_n ^2= n \int_{- \infty} ^{+ \infty} [F_n(X) - F ^*(X)]^2 d F ^*(x)

, où F_n(X) est la fonction de distribution empirique observée de l’échantillon tel que F_n(X) = \frac{k}{N} avec k nombre d’observations inférieur ou égale à x. Et F ^*(X) la fonction de distribution théorique à comparer et fixée au préalable.

La généralisation de cette formule à toute distribution possible permet de partir du postulat que F ^*(X) peut être assimilée à la fonction de distribution d’un second échantillon. Nous posons alors F fonction de distribution de X|_{Y = 1} et G celle de X|_{Y = 2}.

Cette généralisation implique que le terme de dérivation d F ^*(X) devient d H_{n_1 + n_2} (X)H_{n_1, n_2} (X) est la fonction de distribution empirique de X|_{Y = 1}, X|_{Y = 2}, de formule:

(n_1 + n_2) \cdot H_{n_1 + n_2} (X) = n_1 \cdot F(X) + n_2 \cdot G(X)

Par conséquent, la généralisation de la formule, que nous devons à T. W. Anderson, devient grâce à l’intégral de Lebesgue-Stieltjes:

T = \frac{n_1 \cdot n_2}{n_1 + n_2} \int_{- \infty} ^{+ \infty} [F(X) - G(X)] ^2 dH_{n_1 + n_2} (X)

= \frac{n_1 \cdot n_2}{(n_1 + n_2) ^2} \lbrace \sum_{i_1 = 1} ^n [F(X_{i_1}) - G(X_{i_1})] ^2 + \sum_{i_2 = 1} ^n [F(X_{i_2}) - G(X_{i_2})] ^2 \rbrace

En posant R le vecteur des rangs associés à X, nous avons par définition:

F(X) - G(X) = \frac{i_1}{n_1} - \frac{(R|_{Y = 1})_{i_1} - i_1}{n_2}, pour la i_1-ième observation de X|_{Y = 1},

F(X) - G(X) = \frac{(R|_{Y = 2})_{i_2} - i_2}{n_1} - \frac{i_2}{n_2}, pour la i_2-ième observation de X|_{Y = 2}.

Nous pouvons alors écrire, sous l’hypothèse H_0 (soit la probabilité que deux observations soient égales et qui vaut 0), que:

T = \frac{n_1 \cdot n_2}{n} \cdot \lbrace \sum_{i_1 = 1} ^{n_1} [ \frac{(R|_{Y = 1})_{i_1}}{n_2} - i_1 \cdot (\frac{1}{n_1} + \frac{1}{n_2}) ] ^2 + \sum_{i_2 = 1} ^{n_2} [\frac{(R|_{Y = 2})_{i_2}}{n_1} - i_2 \cdot (\frac{1}{n_1} + \frac{1}{n_2}) ] ^2 \rbrace

= \frac{1}{(n_1 + n_2) ^2} \cdot \lbrace \frac{n_1}{n_2} \cdot \sum_{i_1 = 1} ^{n_1} [(R|_{Y = 1})_{i_1} - \frac{n_1 + n_2}{n_1} \cdot i_1] ^2 + \frac{n_2}{n_1} \cdot \sum_{i_2 = 1} ^{n_2} [(R|_{Y = 2})_{i_2} - \frac{n_1 + n_2}{n_2} \cdot i_2] ^2 \rbrace

En remarquant que:

\sum_{i_1 = 1} ^{n_1} (R|_{Y = 1})_{i_1} + \sum_{i_2 = 1} ^{n_2} (R|_{Y = 2})_{i_2} = \sum_{i = 1} ^n i ^2 = \frac{(n_1 + n_2) \cdot (n_1 + n_2 + 1) \cdot (2 n_1 + 2 n_2 + 1)}{6}

Nous avons en developpant:

T =\frac{n_1 \cdot \sum_{i_1 = 1} ^{n_1} [(R|_{Y = 1})_{i_1} - i_1] ^2 + n_2 \cdot \sum_{i_2 = 1} ^{n_2} [(R|_{Y = 2})_{i_2} - i_2] ^2}{n_1 \cdot n_2 \cdot n} - \frac{4 \cdot n_1 \cdot n_2 - 1}{6 \cdot n}

\bullet Exemple:

Cas à 1 échantillon: le test d’ajustement de Cramér-von Mises

Soit la variable aléatoire X suivante:

UPCi-dessous, l’histogramme construit à partir de X (en noir) permet de voir que visuellement la variable ne suit pas une loi normale. Nous affichons également sa densité de distribution empirique (courbe verte) et celle attendue dans le cadre d’une distribution gaussienne (courbe rouge).

UPPour F fonction de répartition d’une loi normale et de paramètres \overline{X} = 6.42034, \sigma_X = 3.299319, nous obtenons donc,

F(X) = (0.04943849, 0.05925460, 0.06477221, 0.07101753, 0.13526439, 0.25218337,

0.31746223, 0.38651837, 0.48830421, 0.67550752, 0.68425558, 0.69965168, 0.78797818,

0.79458401, 0.79661282, 0.83025028, 0.83051069, 0.83202204, 0.83609969, 0.84033359)

Calculons maintenant la statistique du test d’ajustement de Cramér-von Mises en utilisant la formule simplifiée:

n w_n ^2 = \frac{1}{12 \times 20} + \sum_{i = 1} ^{20} [\frac{F(x_i) - (2 \times i - 1)}{20 \times 20}] ^2

= \frac{1}{240} + [\frac{0.04943849 - (2 - 1)}{40}] ^2 + \cdots [\frac{0.84033359 - (40 - 1)}{40}] ^2

= \frac{1}{240} + 0.005972399 + 0.0002479177 + 0.003627386 + \cdots + 0.01813504)

= 0.04166667 + 0.1861175

= 0.1902842

Nous obtenons donc n w_n ^2 = 0.1902842 que nous reportons à la table de Cramér-von Mises pour 20 degrés de liberté, ce qui nous donne une p-valeur de 0.006 < 5 \%. Par conséquent, nous rejettons H_0 et concluons que la fonction de distribution de X est différente de celle d’une loi normale.

Cas pour 2 échantillons: test d’homogénéité de Cramér-von Mises

Soit la variable aléatoire X distribuée selon deux groupes d’une variable Y:

addCi-dessous, les densités associées aux distributions de X selon nos deux groupes. Nous pourrons remarquer que nos deux sous-échantillons ont la même distribution.

add

Afin de pouvoir calculer la statistique du test d’homogénéité de Cramér-von Mises, selon la formule simplifiée proposée, nous avons besoin des vecteurs des rangs R|_{Y = 1}, R|_{Y = 2} respectivement associés à X|_{Y = 1}, X|_{Y = 2} après avoir ordonné X par ordre croissant:

R|_{Y = 1} = (1, 2, 5, 8, 9, 12, 13, 14, 17, 19)

R|_{Y = 2} = (3, 4, 6, 7, 10, 11, 15, 16, 18, 20)

Nous avons alors,

T = \frac{10 \times [(1 - 1) ^2 + (2 - 2) ^2 + \cdots + (17 - 9) ^2 + (19 - 10) ^2] + 10 \times [(3 - 1) ^2 + (4 - 2) ^2 + \cdots + (18 - 9) ^2 + (20 - 10) ^2]}{10 \times 10 \times 20} - \frac{4 \times 10 \times 10 - 1}{6 \times 20}

= \frac{6740}{2000} - \frac{399}{120}

= 3.37 - 3.325

= 0.045

Nous obtenons donc T = 0.045 que nous reportons à la table d’Anderson pour (10, 10) degrés de liberté soit une p-valeur de > 5 \%. Par conséquent, nous ne pouvons rejetter H_0 et concluons que les fonctions de distribution de X|_{Y = 1}, X|_{Y = 2} sont les mêmes au sens statistique du terme.

\bullet Application informatique:

Procédure SAS:

– pour le test d’ajustement de Cramér-Von Mises: https://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_univariate_sect037.htm

– pour le test d’homogénéité de Cramér-Von Mises: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/npar1way_toc.htm

Package et fonction R:

– pour le test d’ajustement de Cramér-Von Mises: http://finzi.psych.upenn.edu/library/goftest/html/cvm.test.html

– pour le test d’homogénéité de Cramér-Von Mises: http://finzi.psych.upenn.edu/library/CDFt/html/CramerVonMisesTwoSamples.html

\bullet Bibliographie:

– Goodness-of-fit Tests on a circle de G. S. Watson

– On the distribution of two-sample Cramér-von Mises criterion de Theodore Wilbur Anderson

– The exact and Asymptotic Distribution of Cramér-von Mises Statistics de Sandor Csorgot et Julian J. Paraway

– Comparaison de populations, tests non paramétriques, de Ricco Rakotomalala

– Probabilité, analyse de données et Statistique de Gilbert Saporta