Le T carré d’Hotelling

add

\bullet Présentation:

Publié en 1931 suite aux travaux d’Harold Hotelling, le T ^2 de Hotelling est une approche paramétrique permettant de tester si plusieurs variables continues distinctes \mathbf{X} = (X ^1, \cdots, X ^P) sont liées à une variable qualitative binaire Y lorsqu’elles sont considérées avec leurs différentes interactions multivariées.

Les hypothèses d’utilisation de ce test sont: \mathbf{X}|_{Y = 1}, \mathbf{X}|_{Y = 2} suivent une loi normale et leur matrice de covariance respective sont égales (homoscédasticité).

Le T ^2 de Hotelling peut être vu comme une généralisation du test de Student et bénéficie des mêmes avantages que ce dernier, à savoir une bonne robustesse lorsque l’hypothèse de normalité des données n’est pas respectée mais une perte lorsque l’hypothèse d’homoscédasticité ne l’est pas.

Le T ^2 de Hotelling a été conçu dans le même objectif que ceux du \lambda de Wilks, de la trace de Hotelling-Lawley, de la trace de Pillai-Bartlett et de la plus forte valeur propre de Roy.

\bullet Le test:

Hypothèse préliminaire: Matrice de P variables continues et une variable qualitative à deux modalités, multinormalité et homoscédasticité.

La statistique de test du T ^2 de Hotelling est:

T ^2 = (\overline{\mathbf{X}|_{Y = 1}} - \overline{\mathbf{X}|_{Y = 2}}) ^t [S \cdot (\frac{1}{n_1} + \frac{1}{n_2})] ^{-1} (\overline{\mathbf{X}|_{Y = 1}} - \overline{\mathbf{X}|_{Y = 2}})

Avec:

S = \frac{(n_1 - 1) \cdot \mathbf{\Sigma}_{\mathbf{X}|_{Y = 1}} + (n_2 - 1) \cdot \mathbf{\Sigma}_{\mathbf{X}|_{Y = 1}}}{n_1 + n_2 - 2}

Cette statistique de test suit un loi de Hotelling, mais par simplicité il lui est appliqué, la plupart du temps, une transformation afin de pouvoir la reporter à la ta table de la loi de Fisher-Snedecor. La formule de la statistique de test devient alors,

F = \frac{n_1 + n_2 - p - 1}{p (n_1 + n_2 - 2)}

Elle suit donc une loi de Fisher-Snedecor de paramètres (P, n_1 + n_2 - P - 1) et l’hypothèse H_0 est : « Indépendance entre la matrice X et Y / \mu_1 = \mu_2« .

Ci-dessous la table de Fisher-Snedecor:

addTendance pour le rejet de H_0:

Plus le T ^2 de Hotelling est grand et plus nous avons de chance de rejeter H_0. Ce qui revient à dire que,

T ^2 \rightarrow \infty

\Rightarrow (\overline{\mathbf{X}|_{Y = 1}} - \overline{\mathbf{X}|_{Y = 2}}) ^t [S \cdot (\frac{1}{n_1} + \frac{1}{n_2})] ^{-1} (\overline{\mathbf{X}|_{Y = 1}} - \overline{\mathbf{X}|_{Y = 2}}) \rightarrow \infty

\Rightarrow (\overline{\mathbf{X}|_{Y = 1}} - \overline{\mathbf{X}|_{Y = 2}}) \rightarrow \infty ou S \rightarrow 0

Nous retrouvons là les mêmes caractéristiques que le test de Student, à savoir que si les moyennes sont nettement différentes alors nous rejetons H_0 mais également que si la somme des matrices de covariance donne une matrice proche de la matrice nulle alors nous tirons la même conclusion. Ce résultat est simple à expliquer en réalité, comparer les barycentres n’a pas réellement de sens sans en connaitre la dispersion. Ainsi, deux barycentres qui semblent proches l’un de l’autre mais dont les variances sont quasi-nuls implique une différente net au sens statistique du terme et donc un rejet de H_0.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous cherchons désormais à étudier l’influence des grands échantillons sur la robustesse du test associé au T ^2 de Hotelling. Nous générons des matrices de 5 vecteurs gaussiens pour 2 groupes. Nous ne faisons pas varier le nombre de groupes ni le nombre de variables aléatoires mais seulement la taille d’échantillon.

Le tableau ci-dessous présente l’évolution des p-valeurs associées aux statistiques de test calculées sur plusieurs simulations dans le cas où les barycentres sont différents d’un groupe à l’autre.

add

Nous constatons que l’hypothèse est bien rejetée quelque soit la taille de n, ce qui correspond au résultat attendu d’après nos hypothèses.

Procédons à la même expérience mais cette fois-ci dans un cas où les barycentres ne devraient pas être statistiquement différents. Le tableau ci-dessous présente ces résultats.

add

Nous constatons que jusqu’à n = 100 le résultat du test est en adéquation avec nos hypothèses mais qu’entre 100 et 1000 observations ce dernier devient significatif, rejetant  H_0 à tort.

Nous en concluons que le test associé au T ^2 de Hotelling est bien influencé par les grands effectifs.

\bullet Annexe théorique:

Nous présentons ici une esquisse de la preuve que la transformation du T ^2 de Hotelling suit une loi de Fisher-Snedecor.

Par abus de notation, nous pouvons réécrire que,

T ^2 = n t' \mathbf{U} ^{-1} t

Où,

t est un vecteur d’éléments indépendants, distribué selon une loi normale et de variances unitaires. Et, E[t_p] = \tau_p, \forall p \in [1, \cdots, P]

\mathbf{U} est une matrice de Wishart de dimensions P \times P, distribuée indépendamment de t et de fonction de densité h(\mathbf{U}|I_P, P, N).

Alors, nous pouvons trouver une matrice orthogonal \mathbf{\Gamma} dont la première ligne est donnée par,

\gamma_1,p = \frac{\tau_p}{\sqrt{\sum_{p = 1} ^P \tau_p ^2}}, \forall p \in [1, \cdots, P]

Si nous appliquons les deux transformations suivantes: Y = \mathbf{\Gamma} t, \mathbf{A} = \mathbf{\Gamma} \mathbf{U} \mathbf{\Gamma}', nous obtenons,

T ^2 = n Y' \mathbf{\Gamma} \mathbf{\Gamma}' \mathbf{A} ^{-1} \mathbf{\Gamma} \mathbf{\Gamma}' Y = n Y' \mathbf{A} ^{-1} Y

où,

Y est un vecteur d’éléments indépendants, distribué selon une loi normale et de variances unitaires. De plus, E[Y_1] = \sqrt{\sum_{p = 1} ^P \tau_p ^2} = \mu et E[Y_p] = 0, \forall, p \in [2, \cdots, P]

\mathbf{A} est une matrice de Wishart de dimensions P \times P, distribuée indépendamment de Y et de fonction de densité h(\mathbf{A} | I_P, P, N)

Pour chaque ensemble de valeurs de Y (à l’exception du vecteur nulle de probabilité zéro), nous pouvons construire une matrice orthogonale \mathbf{G} dont la première ligne est donnée par,

g_p = \frac{Y_p}{\sqrt{b_{1,1}}}, \forall p \in [1, \cdots, P]

b_{1,1} = \sum_{p = 1} ^P Y_p ^2.

Nous avons alors,

T ^2 = n Y' \mathbf{G}' \mathbf{G} \mathbf{A} ^{-1} \mathbf{G}' \mathbf{G} Y

= n(\mathbf{G} Y)' (\mathbf{G} \mathbf{A} \mathbf{G}') ^{-1} \mathbf{G} Y

= n (\sqrt{b_{1,1}}, 0, \cdots, 0) A * ^{-1} (\sqrt{b_{1,1}}, 0, \cdots, 0)'

= n \sqrt{b_{1,1}} a * ^{1,1} \sqrt{b_{1,1}}

= n \frac{b_{1,1}}{a_{1,1,.2...p} *}

En utilisant le lemme 1 ci-dessous,

Lemme 1: Soit \mathbf{B} une matrice aléatoire symétrique de dimensions P \times P et dont les éléments ont pour densité f(\mathbf{B}), \mathbf{G} une matrice aléatoire orthogonale de dimensions P \times P et d’éléments distribués indépendamment de \mathbf{B} et de densité g(\mathbf{G}) et \mathbf{O} une matrice orthogonale de dimensions P \times P définie par \mathbf{E} = \mathbf{O}'  \mathbf{B} \mathbf{O}. Si nous avons la fonction f de propriété f(\mathbf{B}) = f(\mathbf{O} \mathbf{E} \mathbf{O}') = f(\mathbf{E}) alors la matrice \mathbf{B} ^* = \mathbf{G} \mathbf{B}' \mathbf{G} est aléatoire symétrique de dimensions P \times P, d’éléments de densité f(\mathbf{B} ^*), indépendants de \mathbf{G} et donnant ses propriétés à la fonction de densité de Wishart h(B | I_P, P, N)

Les éléments de \mathbf{A} ^* sont alors distribués indépendamment de ceux de \mathbf{G} et donc de b_{1,1}, avec pour distribution celle de Wishart et de formule h(\mathbf{A} ^* | I_P, P, N). Le lemme 2 ci-dessous,

Lemme 2: Soit B une matrice aléatoire symétrique de dimensions P \times P, d’éléments de fonction de densité h(\mathbf{B} | I_P, P, N) et de forme « partitionnée »,

\mathbf{B} = \begin{pmatrix} \mathbf{B}_{1,1} & \mathbf{B}_{1,2} \\ \mathbf{B}_{2,1} & \mathbf{B}_{2,2} \\ \end{pmatrix}

\mathbf{B} ^{-1} = \begin{pmatrix} \mathbf{B}_{1,1} & \mathbf{B}_{1,2} \\ \mathbf{B}_{2,1} & \mathbf{B}_{2,2} \\ \end{pmatrix}

, où \mathbf{B}_{1,1}, \mathbf{B} ^{1,1} sont des matrices de dimensions k \times k. Notons (\mathbf{B}) ^{1,1 - 1} = \mathbf{B}_{. k+1, \cdots, P}, matrice aléatoire symétrique de dimensions k \times k et dont les éléments ont pour fonction de densité h(\mathbf{B}_{. k+1, \cdots, P} | I_k, k , N - P + k).

Alors, a_{1,1 . 2 \cdots P} * suit une loi du \chi ^2 à N - P + 1 degrés de liberté. De plus, b_{1,1} = \sum_{p = 1} ^P Y_p ^2 est la somme des carrés de P variables indépendantes de loi normale (et de variances unitaires). La première étant non centrée, b_{1,1} suit alors une loi du \chi ^2 non centrée et à P degrés de liberté. Par conséquent, comme le rapport de deux loi du \chi ^2 suit une loi de Fisher-snedecor par définition, nous en déduisons que le T ^2 de Hotelling suit une loi de Fisher-snedecor.

\bullet Exemple:

Ci-dessous notre échantillon.

addf.png

La projection, ci-dessous, des observations dans le plan de l’Analyse en Composantes principales (ACP) construit sur X ^1, X ^2, X ^3, X ^4, X ^5 nous permet de voir la répartition des groupes 1 et 2.

add

Cette représentation graphique montre que les barycentres des deux groupes sont nettement distants. Prouvons-le statistiquement.

Etant donné qu’il s’agit ici d’un exemple, nous négligerons volontairement les hypothèse de normalité et d’homoscédasticité. Dans un premier temps, calculons les barycentres et les matrices de covariance de \mathbf{X}|_{Y = 1} et \mathbf{X}|_{Y = 2}. Nous avons,

\mu_1 = (5.49356, 6.23856, 4.99603, 6.79389, 6.82620)

\mu_2 = (15.48187,6.60212,5.52999,14.63168,14.43357)

\Rightarrow \mu_1 - \mu_2 = (-9.98831,-0.36356,-0.53396,7.83779,-7.60737)

Pour les matrices de covariances,

\mathbf{\Sigma}_{\mathbf{X}|_{Y = 1}} = \begin{pmatrix} 9.0705355 & 0.7555145 & 1.5600932 & 10.4175026 & -8.4555557 \\ 0.7555145 & 11.9613546 & 1.7490082 & -1.9441531 & 3.5340828 \\ 1.5600932 & 1.7490082 & 2.1295090 & 0.4300301 & 0.6436261 \\ 10.4175026 & -1.9441531 & 0.4300301 & 13.7338166 & -12.9477788 \\ -8.4555557 & 3.5340828 & 0.6436261 & -12.9477788 & 15.3650284 \\ \end{pmatrix}

Et,

\mathbf{\Sigma}_{\mathbf{X}|_{Y = 2}} = \begin{pmatrix} 9.088271 & 2.6069842  & 5.0946792 & -10.1751933 & 12.188447 \\ 2.606984 & 10.9457223 & 0.3020457 & 1.1275066 & 0.415789 \\ 5.094679 & 0.3020457 & 15.7377368 & 0.6925294 & 4.036739 \\ -10.175193 & 1.1275066 & 0.6925294 & 19.1206608 & -17.627589 \\ 12.188447 & 0.4157890 & 4.03673.86 & -17.6275891 & 18.985590 \\ \end{pmatrix}

\Rightarrow S = \frac{(10 - 1) \times \mathbf{\Sigma}_{\mathbf{X}|_{Y = 1}} + (10 - 1) \times \mathbf{\Sigma}_{\mathbf{X}|_{Y = 2}}}{10 + 10 - 2}

= \begin{pmatrix} 9.0794034 & 1.6812494 & 3.3273862 & 0.1211547 & 1.866446 \\ 1.6812494 & 11.453585 & 1.0255269 & -0.4083232 & 1.974936 \\ 3.3273862 & 1.0255269 & 8.9336229 & 0.5612797 & 2.340182 \\ 0.1211547 & -0.4083232 & 0.5612797 & 16.4272387 & -15.287684 \\ 1.8664459 & 1.9749359 & 2.3401823 & -15.2876839 & 17.175309 \\ \end{pmatrix}

Nous pouvons désormais calculer le T ^2 de Hotelling,

T ^2 = (\mu_1 - \mu_2) ^T \times [S \times (\frac{1}{10} + \frac{1}{10})] ^{-1} \times (\mu_1 - \mu_2)

= (-9.98831,-0.36356,-0.53396,7.83779,-7.60737) ^T \times \begin{pmatrix} 1.81588068 & 0.33624987 & 0.6654772 & 0.02423093 & 0.3732892 \\ 0.33624987 & 2.29070769 & 0.2051054 & -0.08166465 & 0.3949872 \\ 0.66547724 & 0.20510539 & 1.7867246 & 0.11225595 & 0.4680365 \\ 0.02423093 & -0.08166465 & 0.1122559 & 3.28544774 & -3.0575368 \\ 0.37328917 & 0.39498718 & 0.4680365 & -3.05753678 & 3.4350618 \\ \end{pmatrix} ^{-1} \times (-9.98831,-0.36356,-0.53396,.7.83779,.-7.60737)

= (-9.98831,-0.36356,-0.53396,7.83779,-7.60737) ^T \times \begin{pmatrix} 0.67759101 & -0.04692657 & -0.15868682 & -0.2570628 & -0.2754273 \\ -0.04692657 & 0.47771094 & 0.05036551 & -0.2462066 & -0.275840 \\ -0.15868682 & 0.05036551 & 0.85542215 & -0.7259868 & -0.7512988 \\ -0.25706283 & -0.24620656 & -0.72598678 & 2.7343751 & 2.5890212 \\ -0.27542731 & -0.27584104 & -0.7512988 & 2.5890212 & 2.7596099 \\ \end{pmatrix} \times (-9.98831,-0.36356,-0.53396,.7.83779,.-7.60737)

= (-2.556114, 4.296288, 12.51548, -38.08232, -38.03308) \times \begin{pmatrix} -9.98831 \\ -0.36356 \\ -0.53396 \\ -7.783779 \\ -7.60737 \\ \end{pmatrix}

= 605.0994

Nous appliquons désormais la transformation suivante:

F = \frac{10 + 10 - 5 - 1}{5 \times (10 + 10 - 2)} \times T ^2

= \frac{14}{90} \times 605.0994

= 0.1555556 \times 605.0994

= 94.12657

Si nous reportons cette valeur à la table de la loi de Fisher-Snedecor pour (5, 10 + 10 - 5 - 1) = (5, 14) degrés de liberté, nous obtenons une p-valeur de 0.0000000002877 <<<<<< 5 \%, nous en concluons que nous pouvons rejeter H_0 et donc que les barycentres des deux groupes sont bien distincts.

\bullet Application informatique:

Procédure SAS: http://sas-and-r.blogspot.fr/2010/05/example-737-calculation-of-hotellings.html

Package et fonction R: http://search.r-project.org/library/Hotelling/html/hotelling.test.html

\bullet Bibliographie:

– The generalization of Student’s ratio d’Harold Hotelling

– Probabilité, analyse des données et statistiques de Gilbert Saporta

– Contributions to probability and statistics. Essays in honor of Harold Hotelling de Ingram Olkin, Sudhish G. Ghurye, Wassily Hoeffding, William G. Madow et Henry B. Mann

– Comparaison de populations, tests paramétriques de Ricco Rakotomalala