L’Analyse d’Hill et Smith

add.png

\bullet Présentation:

Publié en 1976 par Mark Oliver Hill et Anthony John Edwin Smith, l’analyse d’Hill et Smith est une approche multivariée permettant d’étudier les relations multvariées d’un ensemble de variables mixtes continues, ordinales et/ou qualitatives distinctes \mathbf{X} = (X ^1, \cdots, X ^p).

L’objectif de l’analyse d’hill et Smith est de synthétiser l’information en réduisant le nombre de dimensions afin d’avoir une lecture visuelle et simple des interactions se produisant entre les diverses variables du jeu de données.

L’Outil repose sur une approche mixte ACP (Analyse en Composantes Principales), ACM (Analyse des Correspondances Multiples), puisant dans la force des deux approches pour déterminer les différentes relations entre les différentes variables malgré que leur format diverge.

\bullet L’Analyse d’Hill et Smith:

Hypothèse préliminaire: Aucune.

L’Algorithme:

L’Analyse d’Hill et Smith se base donc sur la possibilité de mixer les deux formats principaux de variables: continue et qualitative et de produire des axes factoriels synthétisant les corrélations et liaisons au sein d’un jeu de données. La méthodologie est une sorte de mélange d’ACM et d’ACP, ainsi la première permettra de transformer les variables qualitatives en variables continues et la seconde permettra de construire le lien entre les deux formats de variables.

L’algorithme se déroule ainsi,

– Étape 1: Séparer les variables continues, donnant la matrice \mathbf{A} de taille n \times P_c, et les variables qualitatives, donnant la matrice \mathbf{B} de taille n \times P_q.

– Étape 2: Standardiser \mathbf{A} selon le vecteur de pondération en ligne et de taille 1 \times n,

W_l = (\frac{1}{n}, \cdots, \frac{1}{n})

, à noter que W_l est fixé ainsi par défaut, mais peut être égal aux poids individuels s’ils existent.

– Étape 3: Déterminer la matrice disjonctive complète associée à \mathbf{B} et que nous noterons \mathbf{B} ^D et appliquer la transformation,

\frac{B_{i,j} ^D}{\sum_{i = 1} ^n B_{i,j} ^D} - 1, \forall i \in [1,n], j \in [1, P_q ^* = \sharp \lbrace \mbox{Modalites au sein de } \mathbf{B} \rbrace]

, nous obtenons alors \mathbf{B}_T ^D.

– Étape 4: Reformer la matrice complète (\mathbf{A}, \mathbf{B}_T ^D) et appliquer en premier la pondération en ligne \sqrt{W_l} puis la racine carré de la pondération en colonne,

W_c = (1, \cdots, 1, \frac{\sum_{i = 1} ^n (B_T ^D)_i ^1}{n}, \cdots, \frac{\sum_{i = 1} ^n (B_T ^D)_i ^{P_q ^*}}{n})

, de taille 1 \times (P_c + P_q ^*). Notons, que dans le vecteur W_c, les variables continues ont un poids unitaire contrairement aux variables qualitatives.

L’Application de ces deux pondérations successives nous donne la matrice (\mathbf{A}, \mathbf{B}_T ^D)_P.

– Étape 5: Faire le produit croisé,

(\mathbf{A}, \mathbf{B}_T ^D)_P ^t (\mathbf{A}, \mathbf{B}_T ^D)_P

– Étape 6: Sortir les valeurs propres \lambda et les vecteurs propres associés \mathbf{V}_{HS}.

– Étape 7: Appliquer à \mathbf{V}_{HS} la première pondération en colonne \frac{1}{\sqrt{W_c}} puis la seconde \sqrt{\lambda} pour obtenir les composantes factorielles \mathbf{CF}_{HS}.

Les parts d’information restituée sur chacun des axes factorielles sont décrites au travers du vecteur \lambda. Nos composantes factorielles \mathbf{CF}_{HS} nous donnent les coordonnées de nos différentes variables projetées sur le plan factoriel.

L’Interprétation:

– Pour les modalités des variables qualitatives, la lecture est la même que pour une ACM. La présence d’un groupe en terme de proximité de deux ou plusieurs modalités de variables qualitatives impliquent un lien entre elles et donc que les individus qui ont choisis l’une des modalités du groupe ont également choisis les autres modalités de ce même groupe.

– Pour les variables quantitatives, la lecture est la même que pour une ACP centrée-réduite. Ainsi, un groupe de variables en terme de proximité sur le cercle de corrélation implique une corrélation soit un lien linéaire croissant. Deux groupes de variables opposés sur le cercle de corrélation implique une anti-corrélation soit un lien linéaire décroissant. Deux groupes de variables dont l’angle formé est de 90° implique une indépendance et donc l’absence de corrélation ou d’anti-corrélation entre eux.

– Pour le mixte entre variable(s) continue(s) et variable(s) qualitative(s), il faudra mixer les deux interprétations. Ainsi, si une ou plus variables qualitatives sont au sein d’un groupe de variables continues, cela implique que plus les variables continues croient et plus les individus ont choisis cette ou ces modalité(s).

\bullet Annexe théorique:

Nous présentons ici une esquisse des démonstrations des six propositions justifiant l’aspect théorique de l’analyse de Hill et Smith.

Proposition 1: l’ACP, qui se base sur la matrice des corrélations, est une approche sur la recherche des variables les plus corrélées entre elles.

Démonstration: Soit \mathbf{A} une matrice centrée-réduite (standardisée) de taille n \times P. Nous avons,

 \rho ^2 = \sum_{p = 1} ^P \frac{(Y ^t A ^p) ^2}{\frac{(Y ^t Y)}{P}}

, avec Y vecteur arbitraire des scores et de taille 1 \times n.

Posons \lambda = P \rho ^2, nous obtenons alors les valeurs stationnaires de \rho ^2 lorsque,

\lambda Y = (\sum_{p = 1} ^P (A ^p (A ^p) ^t) Y

, soit la formule d’une composante principale.

Proposition 2: Les composantes principales sont la résultante de la somme de leur propre estimateur des moindres carrés.

Démonstration: L’estimateur des moindres carrés de Y dans la régression linéaire sur la variable A ^p est,

Y_p = (A ^p) ^t Y A ^p = A ^p (A ^p) ^t Y

En utilisant la proposition 1, nous constatons que la composante principale satisfait la relation,

\lambda Y = \sum_{p = 1} ^P Y_p

Proposition 3: Si les A ^p, p \in [1,P] varient entre eux sous contrainte linéaire, alors leur détermination et celle de Y revient à maximiser \rho ^2 sous formulation d’une problème de valeurs propres extraites depuis une matrice carré symétrique.

Démonstration: Soit Y fixe et égal, par exemple, à A ^p. Assumons que Y est standardisé et supposons que A ^p peut s’écrire selon la combinaison linéaire,

A ^p = \theta_1 \zeta_1 + \cdots + \theta_K \zeta_K

, avec (\zeta_1, \cdots, \zeta_K) orthonormal.

Nous avons alors,

\rho_p ^2 = \frac{((A ^p) ^t Y) ^2}{(A ^p) ^t A ^p} = \frac{(\sum_{k = 1} ^K \theta_k \zeta^t Y) ^2}{\sum_{k = 1} ^K \theta_k ^2}

, dont le coefficient de corrélation au carré est maximisé quand,

\theta_k \propto \zeta_k ^t Y

Notons alors \mathbf{C} = (\mathbf{A}, \zeta_1, \cdots, \zeta_K), le coefficient de corrélation au carré est alors maximisé quand,

\theta = \mathbf{C} ^t Y

Par la proposition 2, nous avons que pour \theta  fixé, la moyenne au carré des corrélations est maximisée lorsque \lambda Y est la somme des estimateurs des moindres carrés de Y. Par conséquent, le maximum global de \rho ^2 est obtenu quand,

\theta = \mathbf{C} ^t Y; \lambda Y = \mathbf{C} \theta

, de forme,

\lambda Y = \mathbf{C} \mathbf{C} ^t Y

Proposition 4: Pour \mathbf{B} matrice de variables qualitatives, l’approche revient à un modèle additif sur les modalités des variables, ramenant le problème à une analyse des correspondances.

Démonstration: Pour une classification à un facteur, l’estimation de Y est un simple moyenne des \theta selon la correspondance à Y. D’où les valeurs stationnaires obtenues pour \rho ^2 lorsque,

\theta_r = moyenne de Y pour la modalité r,

P \rho ^2 Y_i = somme des \theta_r, r \in [1,R] pour les caractéristiques modales de l’individu i.

D’où, le triplet (\rho,Y,\frac{\theta}{\rho}) est solution au problème d’analyse des correspondances définie par (0,I) la matrice d’incidence individuel (en ligne) et des catégories (en colonne).

Proposition 5: Les propositions 1, 2, 3, 4 implique que la combinaison de \mathbf{A} et \mathbf{B} et l’étude de leur lien multivariée revient à une analyse multivariée.

Démonstration: La proposition 2 peut être appliquée directement, utilisant un modèle de classification à un facteur pour variables qualitatives et un modèle linéaire pour variables continues.

Proposition 6: La proposition 2 fournit un algorithme itératif direct et pratique pour calculer les solutions de la proposition 5.

Démonstration: Soit,

Y ^* = \sum_{p = 1} ^P Y_p

Selon les notations de la proposition 3, nous pouvons réécrire le problème sous l’itération,

Y ^* = \mathbf{C} \mathbf{C} ^t Y

, dont la convergence peut être obtenue rapidement par la méthode décrite par Clint et Jennings ou celle de Hill.

\bullet Exemple:

Soit le jeu de données suivants,

add

Appliquons l’analyse d’Hill et Smith afin d’obtenir une représentation synthétique des liaisons entre nos neuf variables.

Dans un premier temps, nous séparons les variables continues des variables qualitatives et nous transformons les deux matrices indépendamment,

– pour la matrice restreinte aux variables continues (X ^1, X ^2, X ^3, X ^4, X ^5), nous définissons tout d’abord le vecteur des pondérations des observations,

W_l = (\frac{1}{20}, \cdots, \frac{1}{20}) et de taille 1 \times 20

, et obtenons après standardisation pondérée selon W_l,

\mathbf{A} = (X_s ^1, X_s ^2, X_s ^3, X ^4, X ^5) = \begin{pmatrix} -1.66667688 & 0.53699601 & -0.7559172 & -1.59438477 & -0.24569927 \\ -1.45850552 & 0.82019342 & -0.4080684 & -1.48730298 & 0.02327323 \\ -1.29588196 & -1.60161550 & -1.669232 & -1.37958370 & 0.20543383 \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ 1.33207517 & 0.85113461 & -1.4779835 & -0.02322048 & 1.40414742 \\ 1.47493991 & 0.46699740 & 1.3348975 & 0.15243809 & 1.62667035 \\ 1.63455708 & 0.98718255 & 1.6922264 & -0.14491013 & 1.74313248 \\ \end{pmatrix}

– pour la matrice restreinte aux variables qualitatives (X ^6, X ^7, X ^8, X ^9), nous construisons d’abord la matrice disjonctive complète,

\mathbf{B} ^D = (X ^6 = "A", X ^6 = "B", X ^7 = "A", \cdots, X ^9 = "A", X ^9 = "B", X ^9 = "C")

= \begin{pmatrix} 0 & 1 & 1 & \cdots & 1 & 0 & 0 \\ 0 & 1 & 1& \cdots & 1 & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 0 & 1 & 0 & \cdots & 0 & 0 & 1 \\ 0 & 1 & 0 & \cdots & 0 & 0 & 1 \\ 0 & 1 & 0 & \cdots & 0 & 0 & 1 \\ \end{pmatrix}

, nous déterminons le vecteur des transformations,

W_c = (\frac{\sharp \lbrace X ^6 = "A" \rbrace}{20}, \frac{\sharp \lbrace X ^6 = "B" \rbrace}{20}, \frac{\sharp \lbrace X ^7 = "A" \rbrace}{20}, \cdots, \frac{\sharp \lbrace X ^9 = "A" \rbrace}{20}, \frac{\sharp \lbrace X ^9 = "A" \rbrace}{20}, \frac{\sharp \lbrace X ^9 = "A" \rbrace}{20})

= (\frac{10}{20}, \frac{10}{20}, \frac{6}{20}, \cdots, \frac{7}{20}, \frac{6}{20}, \frac{7}{20})

, et enfin nous pouvons calculer la matrice standardiser des variables qualitatives,

\mathbf{B}_T ^D = \begin{pmatrix} \frac{0}{\frac{10}{20}} - 1 & \frac{1}{\frac{10}{20}} - 1  & \frac{1}{\frac{6}{20}} - 1 & \cdots & \frac{1}{\frac{7}{20}} - 1 & \frac{0}{\frac{6}{20}} - 1 & \frac{0}{\frac{7}{20}} - 1 \\ \frac{0}{\frac{10}{20}} - 1 & \frac{1}{\frac{10}{20}} - 1  & \frac{1}{\frac{6}{20}} - 1 & \cdots & \frac{1}{\frac{7}{20}} - 1 & \frac{0}{\frac{6}{20}} - 1 & \frac{0}{\frac{7}{20}} - 1 \\ \frac{0}{\frac{10}{20}} - 1 & \frac{1}{\frac{10}{20}} - 1  & \frac{1}{\frac{6}{20}} - 1 & \cdots & \frac{1}{\frac{7}{20}} - 1 & \frac{0}{\frac{6}{20}} - 1 & \frac{0}{\frac{7}{20}} - 1 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ \frac{0}{\frac{10}{20}} - 1 & \frac{1}{\frac{10}{20}} - 1  & \frac{0}{\frac{6}{20}} - 1 & \cdots & \frac{0}{\frac{7}{20}} - 1 & \frac{0}{\frac{6}{20}} - 1 & \frac{1}{\frac{10}{20}} - 1 \\ \frac{0}{\frac{10}{20}} - 1 & \frac{1}{\frac{10}{20}} - 1  & \frac{0}{\frac{6}{20}} - 1 & \cdots & \frac{0}{\frac{7}{20}} - 1 & \frac{0}{\frac{6}{20}} - 1 & \frac{1}{\frac{10}{20}} - 1 \\ \frac{0}{\frac{10}{20}} - 1 & \frac{1}{\frac{10}{20}} - 1  & \frac{0}{\frac{6}{20}} - 1 & \cdots & \frac{0}{\frac{7}{20}} - 1 & \frac{0}{\frac{6}{20}} - 1 & \frac{1}{\frac{10}{20}} - 1 \\ \end{pmatrix}

= \begin{pmatrix} -1 & 1 & 2.333333 & \cdots & 1.857143 & -1 & -1 \\ -1 & 1 & 2.333333 & \cdots & 1.857143 & -1 & -1 \\ 2.333333 & -1 & -1 & \cdots & 1.857143 & -1 & -1 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ -1 & 1 & -1 & \cdots & -1 & -1 & 1.857143 \\ -1 & 1 & -1 & \cdots & -1 & -1 & 1.857143 \\ -1 & 1 & -1 & \cdots & -1 & -1 & 1.857143 \\ \end{pmatrix}

Maintenant nous reformons notre matrice complète (\mathbf{A}, \mathbf{B}_T ^D) et nous lui appliquons la pondération en ligne \sqrt{W_l} = (\sqrt{\frac{1}{20}}, \cdots, \sqrt{\frac{1}{20}}) de taille 1 \times 20, nous obtenons,

(\mathbf{A}, \mathbf{B}_T ^D)_{\sqrt{W_c}} = \begin{pmatrix} -0.37268028 & 0.120075959 & -0.16902823 & \cdots & 0.4152698 & -0.2236068 & -0.2236068 \\ -0.32613175 & 0.183400823 & -0.09124687 & \cdots & 0.4152698 & -0.2236068 & -0.2236068 \\ -0.28976801 & -0.358132113 & -0.03732516 & \cdots & 0.4152698 & -0.2236068 & -0.2236068 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 0.29786106 & 0.190319484 & -0.33048717 & \cdots & -0.2236068 & -0.2236068 & 0.4152698 \\ 0.32980659 & 0.104423793 & 0.29849215 & \cdots & -0.2236068 & -0.2236068 & 0.4152698 \\ 0.36549807 & 0.220740729 & 0.37839333 & \cdots & -0.2236068 & -0.2236068 & 0.4152698 \\ \end{pmatrix}

Nous appliquons une nouvelle pondération en colonne: \sqrt{W_c} = (\sqrt{1}, \sqrt{1}, \sqrt{1}, \sqrt{1}, \sqrt{1}, \sqrt{\frac{10}{20}}, \sqrt{\frac{10}{20}}, \sqrt{\frac{6}{20}}, \sqrt{\cdots, \frac{7}{20}}, \sqrt{\frac{6}{20}}, \sqrt{\frac{7}{20}}), de taille 1 \times 15 et dont les premiers éléments correspondent à des poids unitaires associés aux variables continues. Nous obtenons alors,

(\mathbf{A}, \mathbf{B})_{\sqrt{W_c}, \sqrt{W_l}} = (\mathbf{A}, \mathbf{B})_P = \begin{pmatrix} -0.37268028 & 0.120075959 & -0.16902823 & \cdots & 0.2456769 & -0.1224745 & -0.1322876 \\ -0.32613175 & 0.183400823 & -0.09124687 & \cdots & 0.2456769 & -0.1224745 & -0.1322876 \\ -0.28976801 & -0.358132113 & -0.03732516 & \cdots & 0.2456769 & -0.1224745 & -0.1322876 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 0.29786106 & 0.190319484 & -0.33048717 & \cdots & -0.1322876 & -0.1224745 & 0.2456769 \\ 0.32980659 & 0.104423793 & 0.29849215 & \cdots & -0.1322876 & -0.1224745 & 0.2456769 \\ 0.36549807 & 0.220740729 & 0.37839333 & \cdots & -0.1322876 & -0.1224745 & 0.2456769 \\ \end{pmatrix}

Maintenant nous pouvons faire le produit croisé,

(\mathbf{A}, \mathbf{B})_P ^t \times (\mathbf{A}, \mathbf{B})_P  = \begin{pmatrix} 1 & 0.130828486 & 0.26407954 & \cdots & -0.66671271 & 0.0003475779 & 0.666390918 \\ 0.1308284856 & 1 & 0.10607370 & \cdots & -0.19052973 & 0.1994050956  & 0.005916488 \\ 0.2640795394 & 0.106073704 & 1 & \cdots & -0.08051511 & -0.3103825387 & 0.367873498 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ -0.6667127122 & -0.190529734 & -0.08051511 & \cdots & 0.65 & -0.3240370349 & -0.35 \\ 0.0003475779 & 0.199405096 & -0.31038254 & \cdots & -32403703 & 0.7 & -0.324037035 \\ 0.6663909176 & 0.005916488 & 0.36787350  & \cdots & -0.35 & -0.3240370349 & 0.65 \\ \end{pmatrix}

Nous pouvons ainsi extraire les vecteurs propres,

\mathbf{V}_{HS} = \begin{pmatrix} -0.46521443 & 0.06264258 & 0.05431917 & \cdots & 0 & 0 & 0 \\ -0.11428424 & -0.05132924 & -0.82637677 & \cdots &  0 & 0 & 0 \\ -0.18002968 & 0.18564043 & 0.01720829 & \cdots & 0 & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 0.33623486 & 0.18304311 & 0.05532521 & \cdots & 0.2870376 & 0.1386134 & -0.4922145 \\ -0.02431857 & -0.42243290 & -0.18784324 & \cdots & 0.2657452 & 0.128331 & -0.4557021 \\ -0.31372024 & 0.20805376 & 0.11858383 & \cdots & 0.2870376 & 0.1386134 & -0.4922145 \\ \end{pmatrix}

, et les valeurs propres associées,

\lambda = (4.079046, 3.102799, 1.170648, 0.9732852, 0.7077521, 0.3976803, 0.2601413, 0.1877866, 0.08289118, 0.03216202, 0.0058086, 0, 0, 0, 0)

Afin d’obtenir nos composantes principales, nous devons encore recourir à quelques opérations. Dans un premier dernier temps, nous devons appliquer les pondérations,

\frac{1}{\sqrt{W_c}} = (\frac{1}{\sqrt{1}}, \frac{1}{\sqrt{1}}, \frac{1}{\sqrt{1}}, \frac{1}{\sqrt{1}}, \frac{1}{\sqrt{1}}, \frac{1}{\sqrt{\frac{10}{20}}}, \frac{1}{\sqrt{\frac{10}{20}}}, \frac{1}{\sqrt{\frac{6}{20}}}\frac{1}{\sqrt{\frac{7}{20}}}, \frac{1}{\sqrt{\frac{7}{20}}}, \frac{1}{\sqrt{\frac{7}{20}}}, \frac{1}{\sqrt{\frac{13}{20}}}, \frac{1}{\sqrt{\frac{7}{20}}}, \frac{1}{\sqrt{\frac{6}{20}}}, \frac{1}{\sqrt{\frac{7}{20}}})

, à \mathbf{V}_{HS},

(\mathbf{V}_{HS})_P = \begin{pmatrix} -0.46521443 & 0.06264258 & 0.05431917 & \cdots & 0 & 0 & 0 \\ -0.11428424 & -0.05132924 & -0.82637677 & \cdots & 0 & 0 & 0 \\ -0.18002968 & 0.18564043 & 0.01720829 & \cdots & 0 & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 0.56834065 & 0.30939932 & 0.09351668 & \cdots & -0.4851821 & 0.232994 & -0.8319944 \\ -0.04439944 & -0.77125342 & -0.34295326 & \cdots & 0.4851821 & 0.2342994 & -0.8319944 \\ -0.53028398 & 0.35167504 & 0.20044326 & \cdots & 0.4851821 & 0.2342994 & -0.8319944 \\ \end{pmatrix}

Calculons maintenant le dernier vecteur des pondérations, basé sur la racine carré de \lambda,

\sqrt{\lambda} = (2.01966491, 1.76147627, 1.08196471, 0.98655217, 0.84128003, 0.63061902, 0.51004050, 0.43334352, 0.28790828, 0.17933773, 0.07621424)

, que nous appliquons dans un second dernier temps à la matrice (\mathbf{V}_{HS})_P, ce qui nous donne nos composantes factorielles,

CF_{HS} = \begin{pmatrix} -0.93957726 & 0.11034342 & 0.058771422 & \cdots & 0 & 0 & 0 \\ -0.09614505 & -0.3236920 & -0.421485623 & \cdots & 0 & 0 & 0 \\ -0.05183204 & 0.03329233 & 0.001311517 & \cdots & 0 & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \vdots  \vdots & \vdots \\ & 0.47813364 & 0.19511310 & 0.047697294 & \cdots & 0.3059651 & 0.0195022 & -0.3605394 \\ -0.01278297 & -0.13831484 & -0.026137924 & \cdots & 0.08701146 & 0.001785695 & -1.680350 \\ -0.93408265 & 0.38049998 & 0.197747732 & \cdots & 0.5249499 & 0.2311485 & -0.6999402 \\ \end{pmatrix}

Si nous retenons les deux premières composantes factorielles, c’est:

100 \times (\frac{4.079046}{\sum \lambda} + \frac{3.102799}{\sum \lambda}) = 100 \times (0.3708223968 + 0.2820726045) = 65.2895 \%

, de l’information qui est restituée, ce qui nous permet d’obtenir un plan d’assez bonne qualité.

Ci-dessous la projection des variables,

add.png

En terme d’interprétation, nous constatons trois cas de figures:

– Les modalités X ^6 = "A", X ^7 = "B", X ^9 = "B" sont liées entre elles mais aussi avec la variable continue X ^4 mettant en évidence que plus un individu a une forte valeur pour cette caractéristique et plus il a de chance d’avoir répondu aux trois modalités évoquées.

– Les modalités X ^7 = "C", X ^8 = "B", X ^9 = "C" sont liées entre elles mais aussi avec les variables continues X ^3, X ^5 (même si la relation entre elles est faible vue leur distance avec le cercle de corrélation). Ainsi, plus un individu a de fortes valeurs pour ces deux informations et plus il a de chance d’avoir répondu aux trois modalités évoquées. A noter une relation à modérer avec la variable continue X ^1. Enfin, ce groupe est indépendant au premier groupe évoqué.

– Les modalités X ^6 = "B", X ^7 = "A", X ^9 = "A" sont liées entre elles mais ne présentent aucun lien avec les variables continues. La modalité X ^8 = "A", quand a elle, est anti-corrélé avec le second groupe évoqué.

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_prinqual_sect004.htm

Package et fonction R: pbil.univ-lyon1.fr/ADE-4/ade4-html/dudi.hillsmith.html

\bullet Bibliographie:

– Principal component analysis of taxonomic data with multi-state discrete characters de M. O. Hill et J. E. Smith

– La page web: https://pbil.univ-lyon1.fr/R/pdf/thema2B.pdf