Le test de Shapiro-Wilk

add

Samuel Sanford Shapiro (à gauche) et Martin Bradbury Wilk (à droite)

(attention MAJ V2 en cours!!!)

\bullet Historique:

\begin{tabular}{|l|c|c|} \hline Bloc & 11/05/2013-V1 & 11/04/2019-V2 \\ \hline Historique &  & Cr\'eation \\ \hline Sommaire &  & Cr\'eation \\ \hline Pr\'esentation & Cr\'eation & MAJ \\ \hline Le test & Cr\'eation, appelation: le test / indice-corr\'elation & MAJ \\ \hline Tendance lorsque... & Cr\'eation & ??? \\ \hline Annexe th\'eo... & Cr\'eation & ??? \\ \hline Exemple & Cr\'eation & ??? \\ \hline Appli... info... & Cr\'eation & ??? \\ \hline Bibliographie & Cr\'eation & ??? \\ \hline \end{tabular}

\bullet Sommaire:

  • Présentation
  • Le test
    • La table de Shapiro-Wilk
    • Tendance du test
  • Tendance lorsque n \rightarrow + \infty
  • Annexe théorique
  • Exemple
  • Application informatique
    • Procédure SAS
    • Fonction et package R
  • Bibliographie

\bullet Présentation:

Publié en 1965 par Samuel Sanford Shapiro et Martin Bradbury Wilk, le test de Shapiro-Wilk est une approche non paramétrique permettant de tester si une variable continue X suit une loi normale.

Le test de Shapiro-Wilk est reconnu comme étant le test d’adéquation à une loi normale optimal en présence d’un échantillon de moins de 2000 observations

\bullet Le test:

Hypothèse préliminaire: Variable continue.

Posons a_i le coefficient de pondération associé à l’individu i, 1 \leq i \leq n, n la taille de notre variable X. En notant E[c] la partie entière de c et en partant du principe que X est ordonné, la statistique du test W de Shapiro-Wilk est alors:

W = \frac{(\sum_{i = 1} ^{E[\frac{n}{2}]} a_i \times (X_{n - i + 1} - X_i))^2}{\sum_{i = 1} ^n (X_i - \overline{X}) ^2}

Elle suit une loi de Shapiro-Wilk et l’hypothèse H_0 est:

X suit une loi normale / F_X = F_{L(\mu,\sigma)}

Avec W_{1 - \alpha} la valeur seuil de la distribution de la statistique de test  W pour une confiance \alpha, l’hypothèse alternative est alors,

H_1: F_X \neq F_{L(\mu,\sigma)}, soit W < W_{1 - \alpha}

La table de Shapiro-Wilk:

Dans un premier temps, on trouvera la table des coefficients a_i en fonction de n,

FIGURE23Puis celle de la loi de Shapiro-Wilk:

add

Tendance du test: Plus petite est la statistique de test et plus grande sont les chances de rejeter H_0.

Finalement W \longrightarrow 0 soit:

– quand le numérateur, c’est-à-dire la combinaison linéaire non-biaisée optimale,  \sum_{i = 1} ^{E[\frac{n}{2}]} a_i \times (X_{n - i + 1} - X_i))^2 \longrightarrow 0, ce qui équivaut à dire que la variance pondérée par les coefficients de Shapiro-Wilk ne s’équilibre pas

– quand le dénominateur \sum_{i = 1} ^n (X_i - \overline{X}) ^2 \longrightarrow \infty, c’est-à-dire quand la variance empirique est trop forte

La distribution normale peut alors être vue comme une pente de coefficient 1 sur un diagramme P-P et la statistique de test de Shapiro-Wilk permet de mesurer de combien les données s’éloignent de cette droite.

\bullet Tendance lorsque n \longrightarrow \infty:

La formule de la statistique de Shapiro-Wilk et celle pour le calcul des coefficients d’ajustement sont indépendantes de n.

– Le tableau suivant permet d’étudier l’évolution de la p-value du test de Shapiro-Wilk au fur et à mesure que n est grand sur un échantillon suivant une loi normale:

add

Nous constatons que quelque soit la taille de l’échantillon, le test de Shapiro-Wilk accepte l’hypothèse H_0 et est cohérent.

– Le tableau suivant permet d’étudier l’évolution de la p-value du test de Shapiro-Wilk au fur et à mesure que n est grand sur un échantillon ne suivant  pas une loi normale:

add

Nous constatons qu’hormis pour n = 10, quelque soit la taille de l’échantillon, le test de Shapiro-Wilk rejette l’hypothèse H_0 et est cohérent.

Notons que la limite n = 5000 est dû aux capacités de calcul du logiciel R.

\bullet Annexe théorique: 

Nous présentons la démonstration du test de Shapiro-Wilk:

Soit m^T = (m_1, \cdots, m_n) les espérances des statistiques d’ordre d’un échantillon distribué selon une loi normale centrée-réduite. Et V = (v_{ij}) la matrice n \times n de covariance de ces statistiques d’ordre.

Notons X^T = (X_1, \cdots, X_n) échantillon aléatoire. Trivialement, si X suit une loi normale alors on peut écrire chaque X_i comme une combinaison linéaire non biaisée:

X_i = \mu + \sigma \cdot Y_i \hspace{5mm} \forall i \in \lbrace 1, \cdots, n \rbrace

Le théorème et le lemme qui suivent permettent de déterminer les estimateurs non biaisés de \mu et \sigma.

Théorème des moindres carrés généralisés d’Aitken (1935) et Lloyd (1952): il est possible de définir les meilleurs estimateurs non-biaisés de \mu et \sigma comme ceux minimisant la forme quadratique (X - \mu \cdot 1 - \sigma \cdot m) ^T V^{-1} (X - \mu \cdot 1 - \sigma \cdot m) et de formule:

\hat{\mu} =\frac{m V^{-1} (m \cdot 1^T - 1 \cdot m^T) V ^{-1} X}{1 \cdot V^{-1} \cdot 1 m^T V^{-1}m - (1^T \cdot V^{-1} m)^2}

\hat{\sigma} = \frac{1 \cdot V^{-1} (m \cdot 1^T - 1 ^cdot m^T) V ^{-1} X}{1 \cdot V^{-1} \cdot 1 \cdot m^T V^{-1}m - (1^T \cdot V^{-1} m)^2}

Lemme: Dans le cas d’une configuration symétrique de la distribution, en particulier pour la distribution normale, 1^T \cdot V^{-1} m = 0.

Nous en déduisons que:

\hat{\mu} = \frac{1 \cdot V^{-1} X}{1^T \cdot V^{-1} \cdot 1}

\hat{\sigma} = \frac{m^T V^{-1} X}{m^T V^{-1} m}

Nous avons alors la statistique de test W de Shapiro-Wilk qui quantifie la  différence entre l’estimation de l’écart-type \sigma ^2 par la méthode de construction de la pente de la régression linéaire (hypothèse de normalité) et son estimation classique (aucune hypothèse). Ce ratio peut alors s’écrire:

W = \frac{R^4 \hat{\sigma}^2}{C^2 S^2}  = \frac{b^2}{S^2} = \frac{(a^T X)^2}{S^2} = \frac{\sum_{i=1}^n a_i X_i}{\sum_{i=1} ^n (X_i - \overline{X})^2}

Avec R^2 = m^T V^{-1} m et C^2 = m^T V^{-1} V^{-1} m.

Le développement de l’équation associée à W permet de déterminer la formule  générale des a_i:

a^T = (a_1, \cdots, a_n) = \frac{m^T V^{-1}}{\sqrt{m^T V^{-1} V^{-1} m}}

\bullet Exemple:

Soit l’échantillon aléatoire X ci-dessous,

UPCi-dessous, le QQplot construit à partir de X permet de voir que visuellement l’échantillon ne suit pas une loi normale. Nous affichons également la pente théorique à adhérer afin de s’approcher d’une loi normale  (droite en bleu) et les points projetés observés (point noir).

add

Nous avons donc  \overline{X} = 6.42039. Afin de déterminer la statistique de test de Shapiro-Wilk associée à notre exemple, nous allons présenter les différentes phases de calcul de la formule.

Notons donc le vecteur:

D = (X_{20} - X_1, X_{19} - X_2, \ldots, X_{11} - X_{10})
= (8.7305, 8.379, 8.176, 7.999, 6.7867, 4.9398, 4.28, 3.3891, 1.8236, 0.0807)

et \sum_{i = 1} ^n (X_i ^j - \overline{X ^j}) ^2 = 206.8246.

Afin de récupérer les coefficients a_i, nous nous reportons à la table de Shapiro-Wilk pour n = 20 (nombre d’observations dans notre exemple), nous trouvons alors le vecteur:

a = (0.4734, 0.3211, 0.2565, 0.2085, 0.1686, 0.1334, 0.1013, 0.0711, 0.0422, 0.0140)

Nous avons donc la statistique de test:

W = \frac{(0.4734 \times 8.7305 + \ldots 0.0807 \times 0.0140) ^2}{206.8246} = 0.837162

ce qui nous donne une p-value valant 0.0033 impliquant le rejet de l’hypothèse  H_0. Nous en concluons que l’échantillon étudié en guise d’exemple ne suit pas une loi normale, ce qui est en adéquation avec ce que l’on a pu observer sur le QQplot ci-dessus.

\bullet Application informatique:

Procédure SAS: http://www.stattutorials.com/SAS/TUTORIAL-PROC-UNIVARIATE.htm

Package et fonction R: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/shapiro.test.html

\bullet Bibliographie:

– Data mining et statistiques décisionnelles: l’intelligence des données de Stéphane Tufféry

– An Analysis of Variance Test for Normality de Samuel Shapiro et Martin Bradbury Wilk

– Tests de normalité: Techniques empiriques et tests statistiques de Ricco Rakotomalala

– Comparison of Common Tests for Normality de Johannes Hain