La trace de Hotelling-Lawley

add

\bullet Présentation:

Créé suite aux travaux de Harold Hotelling et Derrick Norman Lawley en 1968, la trace de Hotelling-Lawley est une approche paramétrique permettant de tester si plusieurs variables continues distinctes \mathbf{X} = (X ^1, \cdots, X ^P) sont liées à une variable qualitative Y à K \leq 2 lorsqu’elles sont considérées avec leurs différentes interactions multivariées.

Les hypothèses d’utilisation de ce test sont: \mathbf{X}|_{Y = 1}, \cdots, \mathbf{X}|_{Y = K} suivent une loi normale et leur matrice de covariance respective sont égales (homoscédasticité).

La trace de Hotelling-Lawley est également utilisée afin de valider les hypothèses de l’Analyse de Variance multivariée (MANOVA) en travaillant directement sur les matrices résiduelles.

Enfin, la trace de Hotelling-Lawley a été conçue dans le même objectif que celui du T ^2 de Hotelling, du \Lambda de Wilks, de la trace de Pillai-Bartlett et de la plus forte valeur propre de Roy.

\bullet Le test:

Hypothèse préliminaire: Matrice de P variables continues et une variable qualitative à K \geq 2 modalités, multinormalité et homoscédasticité.

La statistique de test de la trace d’Hotelling-Lawley est:

\bigwedge_{HT} = tr(SCF \cdot SCR ^{-1})

Où,

SCF est la matrice de dispersion inter-groupes et de formule:

\frac{1}{n} \sum_{k = 1} ^K n_k (\overline{\mathbf{X}|_{Y = k}} - \overline{\mathbf{X}}) ^T (\overline{\mathbf{X}|_{Y = k}} - \overline{\mathbf{X}})

SCR est la matrice de dispersion intra-groupes et de formule:

\frac{1}{n} \sum_{k = 1} ^K n_k \mathbf{\Sigma}_{\mathbf{X}|_{Y = k}}

Cette statistique de test suit un loi de Hotelling, mais par simplicité nous lui appliquons la transformation suivante afin de pouvoir se reporter à la loi de Fisher-Snedecor,

F = \frac{2 (s u + 1)}{s ^2 (2 t + s + 1)} \bigwedge_{HT}

Où,

s = min (P, K - 1)

t = \frac{|P - K + 1| - 1}{2}

u = \frac{n - K - P - 1}{2}

Elle suit donc une loi de Fisher-Snedecor à (s(2 t + s + 1),2(s u + 1)) degrés de liberté. L’hypothèse H_0 est: « Indépendance entre X et Y / \mu_1 = \cdots = \mu_K« .

Ci-dessous le tableau de la loi de Fisher-Snedecor.

add

Tendance pour le rejet de H_0:

Plus la statistique de test F est grande et plus nous avons de chance de rejeter H_0. Ce qui revient à dire,

F \rightarrow \infty

\Rightarrow \frac{2 (s u + 1)}{s ^2 (2 t + s + 1)} \bigwedge_{HT} \rightarrow \infty

\Rightarrow \bigwedge HT \rightarrow \infty

\Rightarrow tr (SCF \cdot SCR ^{-1}) \rightarrow \infty

La trace converge vers \infty si les éléments de la diagonale du produit sont grands. Soit que SCF \rightarrow \infty et SCR \rightarrow 0, ce qui revient à se mettre dans le cas où la dispersion inter-groupes est forte (donc des groupes les plus éloignés les uns des autres) et la dispersion intra-groupes est faible (donc des groupes compacts). Cette situation traduit le fait d’avoir des groupes biens distincts et donc le rejet de H_0.

Pour conclure, les calculs de SCF, SCR se basent sur les sommes des distances entre le barycentre des différents groupes et le barycentre globale, et des matrices de covariance. Par conséquent, il suffira qu’un seul groupe soit bien distinct des autres pour que nous puissions rejeter H_0.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous cherchons désormais à étudier l’influence des grands échantillons sur la robustesse du test associé à la trace de Hotelling-Lawley. Nous générons des matrices de 5 vecteurs gaussiens pour 3 groupes. Nous ne faisons pas varier le nombre de groupes ni le nombre de variables aléatoires mais seulement la taille d’échantillon.

Le tableau ci-dessous présente l’évolution des p-valeurs associées aux statistiques de test calculées sur plusieurs simulations dans le cas où les barycentres sont différents d’un groupe à l’autre.

add.png

Nous constatons que l’hypothèse est bien rejetée quelque soit la taille de n, ce qui correspond au résultat attendu d’après nos hypothèses.

Procédons à la même expérience mais cette fois-ci dans un cas où les barycentres ne devraient pas être statistiquement différents. Le tableau ci-dessous présente ces résultats.

add.png

Nous constatons que jusqu’à n = 100 le résultat du test est en adéquation avec nos hypothèses mais qu’entre 100 et 1000 observations ce dernier devient significatif, rejetant  H_0 à tort.

Nous en concluons que le test associé à la trace de Hotelling-Lawley est bien influencé par les grands effectifs.

 \bullet Annexe théorique:

Nous présentons ici une esquisse de la preuve que la loi de Hotelling peut être approximée par la loi de Fisher-Snedecor.

Par abus de notation, nous pouvons réécrire que,

T ^2 = n t' \mathbf{U} ^{-1} t

Où,

t est un vecteur d’éléments indépendants, distribué selon une loi normale et de variances unitaires. Et, E[t_p] = \tau_p, \forall p \in [1, \cdots, P]

\mathbf{U} est une matrice de Wishart de dimensions P \times P, distribuée indépendamment de t et de fonction de densité h(\mathbf{U}|I_P, P, N).

Alors, nous pouvons trouver une matrice orthogonal \mathbf{\Gamma} dont la première ligne est donnée par,

\gamma_1,p = \frac{\tau_p}{\sqrt{\sum_{p = 1} ^P \tau_p ^2}}, \forall p \in [1, \cdots, P]

Si nous appliquons les deux transformations suivantes: Y = \mathbf{\Gamma} t, \mathbf{A} = \mathbf{\Gamma} \mathbf{U} \mathbf{\Gamma}', nous obtenons,

T ^2 = n Y' \mathbf{\Gamma} \mathbf{\Gamma}' \mathbf{A} ^{-1} \mathbf{\Gamma} \mathbf{\Gamma}' Y = n Y' \mathbf{A} ^{-1} Y

où,

Y est un vecteur d’éléments indépendants, distribué selon une loi normale et de variances unitaires. De plus, E[Y_1] = \sqrt{\sum_{p = 1} ^P \tau_p ^2} = \mu et E[Y_p] = 0, \forall, p \in [2, \cdots, P]

\mathbf{A} est une matrice de Wishart de dimensions P \times P, distribuée indépendamment de Y et de fonction de densité h(\mathbf{A} | I_P, P, N)

Pour chaque ensemble de valeurs de Y (à l’exception du vecteur nulle de probabilité zéro), nous pouvons construire une matrice orthogonale \mathbf{G} dont la première ligne est donnée par,

g_p = \frac{Y_p}{\sqrt{b_{1,1}}}, \forall p \in [1, \cdots, P]

b_{1,1} = \sum_{p = 1} ^P Y_p ^2.

Nous avons alors,

T ^2 = n Y' \mathbf{G}' \mathbf{G} \mathbf{A} ^{-1} \mathbf{G}' \mathbf{G} Y

= n(\mathbf{G} Y)' (\mathbf{G} \mathbf{A} \mathbf{G}') ^{-1} \mathbf{G} Y

= n (\sqrt{b_{1,1}}, 0, \cdots, 0) A * ^{-1} (\sqrt{b_{1,1}}, 0, \cdots, 0)'

= n \sqrt{b_{1,1}} a * ^{1,1} \sqrt{b_{1,1}}

= n \frac{b_{1,1}}{a_{1,1,.2...p} *}

En utilisant le lemme 1 ci-dessous,

Lemme 1: Soit \mathbf{B} une matrice aléatoire symétrique de dimensions P \times P et dont les éléments ont pour densité f(\mathbf{B}), \mathbf{G} une matrice aléatoire orthogonale de dimensions P \times P et d’éléments distribués indépendamment de \mathbf{B} et de densité g(\mathbf{G}) et \mathbf{O} une matrice orthogonale de dimensions P \times P définie par \mathbf{E} = \mathbf{O}'  \mathbf{B} \mathbf{O}. Si nous avons la fonction f de propriété f(\mathbf{B}) = f(\mathbf{O} \mathbf{E} \mathbf{O}') = f(\mathbf{E}) alors la matrice \mathbf{B} ^* = \mathbf{G} \mathbf{B}' \mathbf{G} est aléatoire symétrique de dimensions P \times P, d’éléments de densité f(\mathbf{B} ^*), indépendants de \mathbf{G} et donnant ses propriétés à la fonction de densité de Wishart h(B | I_P, P, N)

Les éléments de \mathbf{A} ^* sont alors distribués indépendamment de ceux de \mathbf{G} et donc de b_{1,1}, avec pour distribution celle de Wishart et de formule h(\mathbf{A} ^* | I_P, P, N). Le lemme 2 ci-dessous,

Lemme 2: Soit B une matrice aléatoire symétrique de dimensions P \times P, d’éléments de fonction de densité h(\mathbf{B} | I_P, P, N) et de forme « partitionnée »,

\mathbf{B} = \begin{pmatrix} \mathbf{B}_{1,1} & \mathbf{B}_{1,2} \\ \mathbf{B}_{2,1} & \mathbf{B}_{2,2} \\ \end{pmatrix}

\mathbf{B} ^{-1} = \begin{pmatrix} \mathbf{B}_{1,1} & \mathbf{B}_{1,2} \\ \mathbf{B}_{2,1} & \mathbf{B}_{2,2} \\ \end{pmatrix}

, où \mathbf{B}_{1,1}, \mathbf{B} ^{1,1} sont des matrices de dimensions k \times k. Notons (\mathbf{B}) ^{1,1 - 1} = \mathbf{B}_{. k+1, \cdots, P}, matrice aléatoire symétrique de dimensions k \times k et dont les éléments ont pour fonction de densité h(\mathbf{B}_{. k+1, \cdots, P} | I_k, k , N - P + k).

Alors, a_{1,1 . 2 \cdots P} * suit une loi du \chi ^2 à N - P + 1 degrés de liberté. De plus, b_{1,1} = \sum_{p = 1} ^P Y_p ^2 est la somme des carrés de P variables indépendantes de loi normale (et de variances unitaires). La première étant non centrée, b_{1,1} suit alors une loi du \chi ^2 non centrée et à P degrés de liberté. Par conséquent, comme le rapport de deux loi du \chi ^2 suit une loi de Fisher-snedecor par définition, nous en déduisons que la loi de Hotelling peut être approximée par une loi de Fisher-snedecor.

\bullet Exemple:

Soit l’échantillon suivant,

add

La projection des couples X ^1, X ^2 nous donne:

add

A vue d’oeil nous serions tenter de dire que les 3 barycentres des classes A, B, C sont bien distincts. Vérifions-le au sens statistique du terme.

Dans un premier temps, calculons la matrice de dispersion inter-groupes. Nous avons,

\overline{X} = \mu = (10.48771,6.42034)

\overline{\mathbf{X}|_{Y = 1}} = \mu_1 = (4.0028, 5.384686)

\overline{\mathbf{X}|_{Y = 2}} = \mu_2 = (10.49137, 7.591083)

\overline{\mathbf{X}|_{Y = 3}} = \mu_3 = (16.9695, 6.4525)

Par conséquent,

SCF = \frac{1}{20} \times [7 \times (\mu_1 - \mu) ^T \times (\mu_1 - \mu) + 6 \times (\mu_2 - \mu) ^T \times (\mu_2 - \mu) + 7 \times (\mu_3 - \mu) ^T \times (\mu_3 - \mu)]

= \frac{1}{20} \times [\begin{pmatrix} 294.37886 & 47.012910 \\ 47.01291 & 7.508059 \\ \end{pmatrix} + \begin{pmatrix} 0.00008000802 & 0.02565099 \\ 0.002565099 & 8.22383972 \\ \end{pmatrix} + \begin{pmatrix} 294.094758 & 1.459179439 \\ 1.459179 & 0.007239859 \\ \end{pmatrix}]

= \frac{1}{20} \times \begin{pmatrix} 588.47370 & 48.49774 \\ 48.49774 & 15.73914 \\ \end{pmatrix}

= \begin{pmatrix} 29.423685 & 2.4248870 \\ 2.424887 & 0.7869569 \\ \end{pmatrix}

Pour la dispersion intra-groupes, nous avons,

SCR = \frac{1}{20} \times \sum_{k = 1} ^3 n_k \mathbf{\Sigma}_{\mathbf{X}|_{Y = k}}

= \frac{1}{20} \times [7 \times \begin{pmatrix} 4.642112 & -4.505277 \\ -4.505277 & 13.198839 \\ \end{pmatrix} + 6 \times \begin{pmatrix} 3.476513 & 1.00403 \\ 1.004030 & 11.45007 \\ \end{pmatrix} + 7 \times \begin{pmatrix} 4.758668 & 3.655501 \\ 3.655501 & 9.107011 \\ \end{pmatrix}]

= \frac{1}{20} \times [\begin{pmatrix} 32.49479 & -31.53694 \\ -31.53694 & 92.39187 \\ \end{pmatrix} + \begin{pmatrix} 20.859079 & 6.024178 \\ 6.024178 & 68.700401 \\ \end{pmatrix} + \begin{pmatrix} 33.31068 & 25.58851 \\ 25.58851 & 63.74908 \\ \end{pmatrix}]

= \frac{1}{20} \times \begin{pmatrix} 86.66454289 & 0.07575233 \\ 0.0757233 & 224.84135004 \\ \end{pmatrix}

= \begin{pmatrix} 4.333227 & 0.003787617 \\ 0.003786165 & 11.24207 \end {pmatrix}

Nous pouvons désormais calculer l’objet à partir duquel extraire la trace pour la statistique de test recherchée. Nous avons,

SCF \times SCR ^{-1} = \begin{pmatrix} 29.423685 & 2.4248870 \\ 2.424887 & 0.7869569 \\ \end{pmatrix} \times \begin{pmatrix} 4.333227144 & 0.003787617 \\ 0.003786165 & 11.242067502 \\ \end{pmatrix} ^{-1}

= \begin{pmatrix} 29.423685 & 2.4248870 \\ 2.424887 & 0.7869569 \\ \end{pmatrix} \times \begin{pmatrix} 0.2307750 & -0.00007775145 \\ -0.0000775145 & 0.08895164 \\ \end{pmatrix}

= \begin{pmatrix} 6.790061 & 0.21340993 \\ 0.559542 & 0.06981257 \\ \end{pmatrix}

\Rightarrow \bigwedge_{HT} = tr(SCF \times SCR ^{-1}) = 6.790061 + 0.06981257 = 6.859874

Afin de pouvoir utiliser la table de la loi de Fisher-Snedecor, nous appliquons la transformation nécessaire avec,

s = min(2, 3-1) = min(2,2) = 2

t = \frac{|2 - 3 + 1| - 1 }{2} = \frac{0 - 1}{2} = -0.5

u = \frac{20 - 3 - 2 - 1}{2} = \frac{14}{2} = 7

Et donc,

F = \frac{2 \times (2 \times 7 + 1)}{2 ^2 \times (2 \times (-0.5) + 2 + 1)} \times T = \frac{30}{8} \times 6.859874 = 3.75 \times 6.859874 = 25.72453

Si nous reportons cette valeur de la statistique de test à la table de la loi de Fisher-Snedecor pour (2 \times (2 \times (-0.5) + 2 + 1), 2 \times (2 \times 7 + 1)) = (4,30) degrés de liberté, nous obtenons une p-valeur de 0.000000002540318 <<<<<< 5\%. Nous en concluons au rejet de H_0 et donc que les barycentres de nos trois groupes sont bien distincts.

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_candisc_sect019.htm

Package et fonction R:

Hotelling_Lawley.test = function(DATA){

# La fonction applique le test de la trace de Hotelling-Lawley à l’objet DATA. La matrice DATA doit avoir le format suivant: la première colonne doit contenir la variable classe et les colonnes suivantes les variables continues

 # Homogénéisation de la base de données DATA
DATA = as.data.frame(DATA)
DATA[,1] = as.factor(DATA[,1])

# Récupération des caractéristiques de la base de données DATA
n = dim(DATA)[1]
P = dim(DATA)[2]
biblio_Y = summary(DATA[,1])
nb_class = length(biblio_Y)

# Calcul de la dispersion inter-groupes SCF
bT = colMeans(DATA[,2:P])
b = colMeans(DATA[which(DATA[,1]==names(biblio_Y)[1]),2:P])
SCF = biblio_Y[1]*(t(t(b-bT))%*%(b-bT))
for (k in 2:nb_class) {
b = colMeans(DATA[which(DATA[,1]==names(biblio_Y)[k]),2:P])
SCF = SCF + biblio_Y[k]*(t(t(b-bT))%*%(b-bT))
}
SCF = (1/n) * SCF

 # Calcul de la dispersion intra-groupes SCR
SCR = biblio_Y[1]*cov(DATA[which(DATA[,1]==names(biblio_Y)[1]),2:P])
for (k in 2:nb_class) {SCR = SCR + biblio_Y[k]*cov(DATA[which(DATA[,1]==names(biblio_Y)[k]),2:P])}
SCR = (1/n) * SCR

 # Calcul de la trace de Hotelling-Lawley
M = SCF%*%solve(SCR)
HT = sum(diag(M))

 # Ajustement du nombre de variables P et transformation de Fisher
P = P – 1
s = min(P,nb_class-1)
t = (abs(P – nb_class + 1) – 1)/2
u = (n – nb_class – P – 1)/2
F = (2*(s*u+1))/(s^2*(2*t+s+1))*HT
p = 1 – pf(F,s*(2*t+s+1),2*(s*u+1))

 # Création de la matrice des résultats finaux et impression
Resultats = data.frame(Pop=n,nVar_X=P,nbClass_Y=nb_class,Hotellin_Lawley.tr= HT,F=F,p.valeur=p)
return(Resultats)

}

\bullet Bibliographie:

– Probabilité, analyse de données et statistiques de Gilbert Saporta

– Comparaison de populations, tests paramétriques de Ricco Rakotomalala

Contributions to probability and statistics. Essays in honor of Harold Hotelling de Ingram Olkin, Sudhish G. Ghurye, Wassily Hoeffding, William G. Madow et Henry B. Mann