La Lambda de Wilks

add

\bullet Présentation:

Créé suite aux travaux de Samuel Stanley Wilks, le \Lambda de Wilks est une approche paramétrique permettant de tester si plusieurs variables continues distinctes \mathbf{X} = (X ^1, \cdots, X ^P) sont liées à une variable qualitative Y à K \geq 2 groupes, lorsqu’elles sont considérées avec leurs différentes interactions multivariées.

Les hypothèses d’utilisation de ce test sont: \mathbf{X}|_{Y = 1}, \cdots, \mathbf{X}|_{Y = K} suivent une loi normale et leur matrice de covariance respective sont égales (homoscédasticité).

Le \Lambda de Wilks est également utilisé afin de valider les hypothèses de l’Analyse de Variance multivariée (MANOVA) en travaillant directement sur les matrices résiduelles.

Enfin, le \Lambda de Wilks a été conçu dans le même objectif que celui du T ^2 de Hotelling, de la trace de Hotelling-Lawley, de la trace de Pillai-Bartlett et de la plus forte valeur propre de Roy.

\bullet Le test:

Hypothèse préliminaire: Matrice de P variables continues et une variable qualitative à K \geq 2 modalités, multinormalité et homoscédasticité.

La statistique de test du \Lambda de Wilks est:

\Lambda = \frac{det(SCR)}{det(SCR + SCF)}

Où,

SCF est la matrice de dispersion inter-groupes et de formule:

\frac{1}{n} \sum_{k = 1} ^K n_k (\overline{\mathbf{X}|_{Y = k}} - \overline{\mathbf{X}}) ^T (\overline{\mathbf{X}|_{Y = k}} - \overline{\mathbf{X}})

SCR est la matrice de dispersion intra-groupes et de formule:

 \frac{1}{n} \sum_{k = 1} ^K n_k \mathbf{\Sigma}_{\mathbf{X}|_{Y = k}}

La somme des deux représente la dispersion totale.

Cette statistique de test suit un loi de Wilks à (P, n, K-1) degrés de liberté et l’hypothèse H_0 est : « Indépendance entre X et Y / \mu_1 = \cdots = \mu_K« .

Dans le cas où K = 2 et par simplicité d’utilisation, il lui est appliqué la plupart du temps une transformation (de Rao) afin de pouvoir se reporter à la ta table de la loi de Fisher-Snedecor. La formule de la statistique de test devient alors,

F = \frac{1 - \Lambda}{\Lambda}

Elle suit donc une loi de Fisher-Snedecor de paramètres (P, n - P - 1).

A noter qu’il est rare de trouver la table de la loi de Wilks implémentée sous les différents logiciels de statistique existant. Par conséquent, si n est suffisamment grand, nous nous orienterons vers l’utilisation de l’approximation de Bartlett suivante,

\chi ^2 = - [n - \frac{1}{2} (P - K + 1)] ln (\Lambda)

, qui suit une loi du \chi ^2 à P degrés de liberté.

Ci-dessous la table de Fisher-Snedecor.

addCi-dessous le tableau de la loi du \chi ^2.

addTendance pour le rejet de H_0:

Plus le \Lambda de Wilks est proche de zéro et plus nous avons de chance de rejeter H_0. Ce qui revient à dire,

\frac{det(SCR)}{det(SCR + SCF)} \rightarrow 0 \Rightarrow det(SCR) \rightarrow 0 ou det(SCR + SCF) \rightarrow \infty

Avant de poursuivre, prenons le temps de préciser que le déterminant est fort si les éléments de la diagonale de la matrice considérée sont grands et les éléments restants sont faibles. Dans notre cas, pour les matrices de covariances cela implique une forte variance et une faible covariance et pour la matrice de dispersion inter-groupe cela implique un éloignement important entre les barycentres d’au moins un des groupes avec le barycentre global.

Si nous revenons sur les deux cas mis en évidence, pour le premier, cela revient à dire que la dispersion intra-groupes est faible et donc que les groupes sont compacts. Dans le second cas, cela revient à dire que la dispersion total explose.

Remarquons l’influence de SCR dans la statistique de test. En effet, si SCR \rightarrow 0 cela impose que SCR + SCF \approx SCF \rightarrow \infty (pour le second cas) soit que la dispersion inter-groupes est forte et donc que les groupes sont nettement distincts.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous cherchons désormais à étudier l’influence des grands échantillons sur la robustesse du test associé au \Lambda de Wilks. Nous générons des matrices de 5 vecteurs gaussiens pour 3 groupes. Nous ne faisons pas varier le nombre de groupes ni le nombre de variables aléatoires mais seulement la taille d’échantillon.

Le tableau ci-dessous présente l’évolution des p-valeurs associées aux statistiques de test calculées sur plusieurs simulations dans le cas où les barycentres sont différents d’un groupe à l’autre.

add

Nous constatons que l’hypothèse est bien rejetée quelque soit la taille de n, ce qui correspond au résultat attendu d’après nos hypothèses.

Procédons à la même expérience mais cette fois-ci dans un cas où les barycentres ne devraient pas être statistiquement différents. Le tableau ci-dessous présente ces résultats.

add

Nous constatons que jusqu’à n = 100 le résultat du test est en adéquation avec nos hypothèses mais qu’entre 100 et 1000 observations ce dernier devient significatif, rejetant  H_0 à tort.

Nous en concluons que le test associé au \Lambda de Wilks est bien influencé par les grands effectifs.

\bullet Annexe théorique:

Nous présentons ici un esquisse de la démonstration du fait que \frac{1 - \Lambda}{\Lambda} suit une loi de Fisher-Snedecor.

Dans un premier temps, rappelons la définition suivante,

Définition: Soit \mathbf{A}, \mathbf{B} deux matrices de Wishart W_p(m,\Sigma) et W_p(n,\Sigma) indépendantes où m \geq p, alors le quotient,

\frac{| \mathbf{A} |}{| \mathbf{A} + \mathbf{B} |} = \Lambda

, a une distribution de Wilks de paramètres p, m, n et qui ne dépend pas de \mathbf{\Sigma}. \mathbf{A}, \mathbf{B} étant des matrices positives, cela implique que \Lambda \in [0, 1].

A noter que la loi de Wilks généralise celle de \chi ^2 de Pearson.

Cette définition sur laquelle se base le \Lambda de Wilks explique la raison pour laquelle les données doivent répondre aux hypothèses de normalité et d’homoscédasticité.

Le \Lambda de Wilks peut donc être vu comme une variable aléatoire qui suit une loi du \chi ^2. Or, par propriété, le rapport de deux loi du \chi ^2 suit une la loi de Fisher-Snedecor. Dés lors, plusieurs cas célèbres ont pu être reporté:

– pour K = 1, p ,n, \frac{1 - \Lambda}{\Lambda} = \frac{P}{n - P + 1} F_{P, n - P + 1},

– pour K, p = 1 ,n, \frac{1 - \Lambda}{\Lambda} = \frac{K}{n} F_{K, n},

– pour K = 2, p ,n, \frac{1 - \sqrt{\Lambda}}{\sqrt{\Lambda}} = \frac{P}{n - P + 1} F_{2 P, 2 (n - P + 1)},

– pour K, p = 2 ,n, \frac{1 - \sqrt{\Lambda}}{\sqrt{\Lambda}} = \frac{K}{n - 1} F_{2 K, 2 (n - 1)}.

\bullet Exemple:

Ci-dessous notre échantillon.

addf.png

La projection ci-dessous dans le plan de l’Analyse en Composantes Principales (ACP) construit sur X ^1, X ^2, X ^3, X ^4, X ^5 nous permet de voir la répartition des groupes 1 et 2.

add

Dans un premier temps, calculons les barycentres,

\overline{\mathbf{X}} = (10.488,6.4203,5.263,10.713,10.630)

\overline{\mathbf{X}|_{Y = 1}} = (5.494,6.238,4.996,6.794,6.826)

\overline{\mathbf{X}|_{Y = 2}} = (15.48,6.602,5.530,14.632,14.434)

\Rightarrow SCF = \frac{1}{20} [ 10 \times (\overline{\mathbf{X}|_{Y = 1}} - \overline{\mathbf{X}}) ^T \times (\overline{\mathbf{X}|_{Y = 1}} - \overline{\mathbf{X}}) + (10 \times \overline{\mathbf{X}|_{Y = 2}} - \overline{\mathbf{X}}) ^T \times (\overline{\mathbf{X}|_{Y = 2}} - \overline{\mathbf{X}})]

= \frac{1}{20} [\begin{pmatrix} 249.400360 & 9.0740980 & 13.333980 & 195.714860 & 189.971760 \\ 9.074098 & 0.3301489 & 0.485139 & 7.3120823 & 6.911868 \\ 13.333980 & 0.4851390 & 0.712890 & 10.463730 & 10.156680 \\ 195.714860 & 7.1208230 & 10.463730 & 153.585610 & 149.078760 \\ 189.971760 & 6.9118680 & 10.156680 & 149.078760 & 144.704160 \\ \end{pmatrix} + \begin{pmatrix} 249.200640 & 9.0704640 & 13.328640 & 195.636480 & 189.895680 \\ 9.070464 & 0.3301489 & 0.485139 & 7.120823 & 6.911868 \\ 13.328640 & 0.4851390 & 0.712890 & 10.463730 & 10.156680 \\ 195.636480 & 7.1208230 & 10.463730 & 153.585610 & 149.078760 \\ 189.895680 & 6.9118680 & 10.156680 & 149.078760 & 144.704160 \end{pmatrix}]

= \begin{pmatrix} 24.9300500 & 0.90722810 & 1.3331310 & 19.5675670 & 18.9933720 \\ 0.9072281 & 0.0301489 & 0.0485139 & 0.7120823 & 0.6911868 \\ 1.3331310 & 0.04851390 & 0.07112890 & 1.0463730 & 1.0156680 \\ 19.5675670 & 0.71208230 & 1.0463730 & 15.3585610 & 14.9078760 \\ 18.9933720 & 0.69118680 & 1.0156680 & 14.9078760 & 14.4704160 \end{pmatrix}

Poursuivons par le calcul des matrices de covariance de \mathbf{X}|_{Y = 1} et \mathbf{X}|_{Y = 2}. Nous avons,

\mathbf{\Sigma}_{\mathbf{X}|_{Y = 1}} = \begin{pmatrix} 9.0705355 & 0.7555145 & 1.5600932 & 10.4175026 & -8.4555557 \\ 0.7555145 & 11.9613546 & 1.7490082 & -1.9441531 & 3.5340828 \\ 1.5600932 & 1.7490082 & 2.1295090 & 0.4300301 & 0.6436261 \\ 10.4175026 & -1.9441531 & 0.4300301 & 13.7338166 & -12.9477788 \\ -8.4555557 & 3.5340828 & 0.6436261 & -12.9477788 & 15.3650284 \\ \end{pmatrix}

Et,

\mathbf{\Sigma}_{\mathbf{X}|_{Y = 2}} = \begin{pmatrix} 9.088271 & 2.6069842  & 5.0946792 & -10.1751933 & 12.188447 \\ 2.606984 & 10.9457223 & 0.3020457 & 1.1275066 & 0.415789 \\ 5.094679 & 0.3020457 & 15.7377368 & 0.6925294 & 4.036739 \\ -10.175193 & 1.1275066 & 0.6925294 & 19.1206608 & -17.627589 \\ 12.188447 & 0.4157890 & 4.03673.86 & -17.6275891 & 18.985590 \\ \end{pmatrix}

\Rightarrow SCR = \frac{1}{20} \times [10 \times \mathbf{\Sigma}_{\mathbf{X}|_{Y = 1}} + 10 \times \mathbf{\Sigma}_{\mathbf{X}|_{Y = 2}}]

= \frac{1}{20} \times \begin{pmatrix} 181.588068 & 33.624987 & 66.54772 & 2.423093 & 37.3289 \\ 33.624987 & 229.07069 & 20.51054 & -8.166465 & 39.49872 \\ 66.547724 & 20.510539 & 178.67246 & 11.225595 & 46.80365 \\ 2.423093 & -8.166465 & 11.22559 & 328.544774 & -305.75368 \\ 37.328917 & 39.498718 & 46.80365 & -305.753678 & 343.50618 \\ \end{pmatrix}

= \begin{pmatrix} 9.0794034 & 1.6812494 & 3.3273862 & 0.1211547 & 1.866446 \\ 1.68142494 & 11.4535385 & 1.0255269 & -0.4083232 & 1.974936 \\ 3.3273862 & 1.0255269 & 8.9336229 & 0.5612797 & 2.340182 \\ 0.1211547 & -0.4083232 & 0.5612797 & 16.4272387 & -15.27684 \\ 1.8664459 & 1.9749359 & 2.3401823 & -15.2876839 & 17.175309 \end{pmatrix}

\Rightarrow det(SCR) = 23104.68

Maintenant que nous avons déterminer la valeur au numérateur, calculons celle au dénominateur,

\Rightarrow SCR + SCF = \begin{pmatrix} 34.020988 & 2.5890868 & 4.660726 & 19.6927237 & 20.8626383 \\ 2.589087 & 11.4865824 & 1.074059 & 0.3040535& 2.6663698 \\ 4.660726 & 1.0740586 & 9.004901 & 1.6075463 & 3.3556901 \\ 19.692724 & 0.3040535 & 1.607549 & 31.7849767 & -0.3814418 \\ 20.862638 & 2.6663698 & 3.355690 & -0.3814418 & 31.6433286 \\ \end{pmatrix}

\Rightarrow det(SCR + SCF) = 722136.3

Nous pouvons désormais calculer le \Lambda de Wilks,

 \Lambda = \frac{det(SCR)}{det(SCR + SCF)} = \frac{23104.68}{722136.3} = 0.0319949

Afin de pouvoir reporter notre statistique de test à la table de la loi de Fisher-Snedecor pour (5,20-5-1) = (5,14) degrés de liberté, nous appliquons la transformation de Rao suivante:

F = \frac{1 - 0.0319949}{0.0319949} = \frac{0.9680051}{0.0319949} = 30.25498

La p-valeur associée à cette statistique de test est p = 0.0000004964133 <<<<<< 5 \%, nous en concluons au rejet de H_0 et donc les barycentres de nos deux groupes sont distincts.

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_candisc_sect019.htm

Package et fonction R: http://www.inside-r.org/packages/cran/rrcov/docs/model.frame.Wilks.test

\bullet Bibliographie:

– Probabilité, analyse de données et Statistique de Gilbert Saporta

– Data mining et statistique décisionnelle. L’intelligence des données de Stéphane Tufféry