L’Analyse en composantes principales

Karl_Pearson

\bullet Présentation:

Publié en 1901 par Karl Pearson, l’analyse en composantes principales (ACP) est une approche multivariée permettant d’étudier la multicolinéarité d’un ensemble de variables continues ou ordinales distinctes \mathbf{X} = (X ^1, \cdots, X ^p).

L’objectif de l’ACP est de synthétiser l’information en réduisant le nombre de dimensions afin d’avoir une lecture visuelle et simple des interactions se produisant entre les diverses variables du jeu de données.

Dans le cas de variables continues, nous lui privilégierons sa version centrée-réduite (ou normée) qui présente l’immense avantage de délimiter la projection à l’intérieur du cercle trigonométrique. Cette propriété offre un net gain sur la lisibilité et l’interprétation des résultats. Nous parlerons d’ACP non normée lorsque les données sont seulement centrées, elle dispose alors des même propriétés de lecture que l’ACP des rangs.

Dans le cas de variables ordinales, l’ACP travaille sur le jeu de données en l’état sans transformation. Il en résulte une lecture des résultats plus prudente. Cette approche porte le nom d’ACP des rangs et peut être une alternative dans le cas de fortes présences d’outliers. Le passage aux rangs des données permet notamment de gagner en robustesse.

Il est très important de prendre en compte que l’ACP ne permet de déceler que les relations linéaires entre les différentes variables. En présence de relations quadratiques ou sinusoïdales l’ACP ne sera d’aucune utilité, il convient alors de s’orienter vers d’autres méthodes exploratoires comme l’analyse des correspondances multiples (ACM) après avoir transformé le jeu de données en variables qualitatives.

Enfin, l’ACP se base sur la notion de projection afin de déterminer un nouvel espace maximisant la restitution de la variance. Les algorithmes les plus souvent utilisés sont ceux consistant en une succession de projections orthogonales (rotation varimax, quartimax, equamax). Une autre série d’algorithmes existe et se basant sur des rotations obliques qui ont pour objectif de répartir au mieux les variables sur les différents axes (rotation oblimin et promax) contrairement à la première série qui va chercher à orienter la projection dans la direction du premier axe.

\bullet L’Analyse en composantes principales:

Hypothèse préliminaire: Variables continues ou ordinales.

L’algorithme:

Trois versions de l’ACP existent, la première est l’ACP centrée-réduite ou normée, la seconde est l’ACP centrée ou non normée. Elles s’appliquent sur des données \mathbf{X} entièrement continues. La troisième est l’ACP des rangs et s’applique sur un jeu de données \mathbf{X} composé de variables ordinales (rangs). Ces trois versions se basent sur le même algorithme de calcul et ne diffèrent que légèrement.

– La première étape consiste à centrer-réduire, seulement centrer ou ne pas modifier les données en fonction du type de variables composant \mathbf{X}

– La seconde étape du calcul de l’ACP est l’élaboration de la matrice des corrélations \mathbf{T}. Dans le cas de l’ACP normée ou non normée, nous privilégierons le coefficient de corrélation de Pearson tandis que dans le cas de l’ACP des rangs se sera soit le coefficient de corrélation de Spearman soit celui de Kendall.

– La troisième étape de calcul consiste à extraire les valeurs propres \lambda_p, p \in [1, P] (qui porte également le nom de parts de variance) et les vecteurs propres v_p, p \in [1, P] (qui porte également le nom de composantes principales, de facteurs principaux ou axes factoriels) relatifs à la matrice \mathbf{T}. Nous comptons donc autant de valeurs propres, de composantes principales que de variables étudiées.

Mathématiquement, l’ACP se base sur l’idée de projection. En définissant une métrique \mathbf{M}, la projection de la variable j sur la composante p s’exprime par:

cos ^2 (\theta_{j,p}) = \frac{\Vert proj(\overline{X} ^{j,v_p}) \Vert_\mathbf{M} ^2}{\vert \overline{X} ^j \vert _\mathbf{M} ^2} = \frac{< \overline{X} ^j, v ^p > _\mathbf{M} ^2}{\vert \overline{X} ^j \vert _\mathbf{M} ^2} \in [0, 1]

, et représente le cosinus de l’angle formé entre deux variables centrées soit, par définition, leur coefficient de corrélation linéaire.

Les parts (en pourcentage) de variance:

Le vecteur \lambda = (\lambda_1, \cdots, \lambda_P) contient l’information de l’intensité des corrélations entre chacune des variables de \mathbf{X} sur les différentes composantes principales. Nous retrouvons la part variance de la p^{ieme} composante principale par la formule:

\frac{\lambda_p}{\sum_{p = 1} ^P \lambda_p}

Cette mesure permet de juger de la qualité de l’information conservée lors de l’étape de réduction des dimensions. En effet, moins il y a d’interactions au sein du jeu de données et moins les parts de variance seront importantes. A l’inverse, plus nous sommes en présence d’interactions et plus les parts de variance associées aux premières dimensions seront grandes.

Les composantes principales:

Soit la matrice \mathbf{V} = (v^1, \cdots, v^P) dans laquelle figure nos composantes principales et qui correspondent plus concrètement, en ligne, aux coordonnées de nos variables en fonction, en colonne, de l’axe considéré.

Nous pouvons alors écrire, \forall p \in [1,P] les équations obtenues de type:

E_p = v_1 ^p \cdot X ^1 + \ldots + v_P ^p \cdot X ^P

, et qui retranscrivent les oppositions entre les différentes variables sur l’axe p du plan factoriel construit par l’ACP. Cette visualisation est d’importance puisqu’elle permet ainsi de quantifier et observer les profils au travers de la relation linéaire liant les variables d’intérêt.

Projection des individus:

La projection des individus se fait également au travers des composantes principales. Il s’agit alors d’insérer le vecteur (X_i ^1, \cdots, X_i ^P) de l’observation i \in [1, n] au sein des composantes principales E_p, p \in [1,P] afin d’obtenir ses coordonnées dans le plan factoriel construit par l’ACP.

A noter qu’il ne faut pas superposée la carte des individus ainsi obtenues avec celle des variables, les deux échelles étant différentes.

Choix du nombre d’axes factoriels:

Le choix du nombre d’axes factoriels est la dernière étape à franchir pour boucler le travail effectué par l’ACP.

Deux critères existent. Le premier est celui de Kaiser qui consiste à conserver les axes factoriels dont les valeurs propres associées \lambda_p > 1, p \in [1,P]. Le second consiste à ranger par ordre décroissant les valeurs propres, à calculer la part d’inertie cumulée et retenir celles dont la somme est supérieure à 70 \%. Ce seuil est à réajuster en fonction du nombre de variables au sein de \mathbf{X}. En effet, sur un nombre faible de variables, il convient de fixer un seuil beaucoup plus haut.

Le choix du nombre d’axes factoriels n’est pas toujours évident puisqu’il s’agit de trouver un compromis entre inertie restituée, et donc qualité de représentation, et simplicité. Ainsi, sur un plan en deux dimensions et pour p' \leq p axes retenus, ce sont donc \frac{p' \cdot (p' - 1)}{2} combinaisons de deux axes qu’il faut observer et pour ceux ayant la chance d’avoir le logiciel graphique opportun, ce sont \frac{p' \cdot (p' - 1) \cdot (p' - 2)}{6} combinaisons de trois axes à considérer.

Interprétation:

– Plus une variable est proche du cercle de corrélation plus elle contribue à la formation de l’axe considéré et plus elle est informative (pour l’ACP centrée-réduite).
– Deux ou plusieurs variables sont fortement corrélées si elles contribuent fortement ensemble à la formation d’un même axe.
– Deux variables ou groupes de variables sont fortement corrélées, respectivement fortement anti-corrélées, si les deux variables ou groupes de variables tendent respectivement vers les bornes +1 et -1 du cercle de corrélation (pour l’ACP centrée-réduite).
– Un angle de 45 ^{\circ} entre deux variables ou groupes de variables implique qu’elles sont indépendantes (pour l’ACP centrée-réduite).

\bullet Annexe théorique:

Cette partie de l’article présente la démonstration de l’inertie totale du nuage de points.

Sa définition générale et mathématique en un point a est,

I_a = \sum_{i = 1} ^n p_i (e_i - a) ' \mathbf{M} (e_i - a)

.Où,

\mathbf{M} = \begin{pmatrix} \frac{1}{s_1 ^2} & & & & & 0 \\ & \frac{1}{s_2 ^2} & & & & \\ & & . & & \\ & & & & . & \\ 0 & & & & & \frac{1}{s_P ^2} \\ \end{pmatrix}

En notant i_G l’inertie totale (au centre de gravité G), nous avons par la relation de Huyghens,

I_a = I_G + (G - a) ' \mathbf{M} (G - a) = I_G + || G - a || ^2

A noter que si G = 0,

I_G = \sum_{i = 1} ^n p_i e_i ' \mathbf{M} e_i

Nous avons alors,

2 I_g = \sum_{i = 1} ^n \sum_{j = 1} ^n p_i p_j (e_i - e_j)' \mathbf{M} (e_i - e_j) = \sum_{i = 1} ^n \sum_{j = 1} ^n p_i p_j || e_i - e_j || ^2

, soit la moyenne des carrés de toutes les distances entre les n individus.

Enfin, l’inertie totale peut également être définie comme la trace de la matrice \mathbf{M V}. Et comme p_i e_i ' \mathbf{M} e_i est un scalaire nous avons par propriété de commutativité sous la trace,

I_g = trace(\sum_{i = 1} ^n p_i e_i ' \mathbf{M} e_i)

= trace(\sum_{i = 1} ^n \mathbf{M} e_i ' p_i e_i)

= trace(\mathbf{M} \mathbf{X} ' \mathbf{D} \mathbf{X})

= trace(\mathbf{M} \mathbf{V})

\bullet Exemple:

Soit la matrice de données \mathbf{X} suivante:

addNous calculons la matrice des corrélations de Pearson associée à \mathbf{X}:

add

En procédant par SVD, nous pouvons extraire les valeurs et vecteurs propres associés de cette matrice que nous rangeons directement par ordre décroissant:

\lambda = (2.0725, 1.0727, 0.8886, 0.8545, 0.1117)

Par souci de lisibilité nous nous restreignons aux deux premières composantes associées aux deux premières valeurs propres. Ainsi, la première composante représente:

\frac{2.0725}{2.0725 + 1.0727 + 0.8886 + 0.8545 + 0.1117} = 41 \%de la variance

, et la seconde composante 21 \% de la variance. 

Les deux composantes principales retenues, et qui expliquent 62 \% de la variance, sont:

addEnfin, nous pouvons présenter la projection des variables dans le cercle de corrélation associés aux composantes 1-2:

addUne analyse de la figure ci-dessus met en évidence la liaison entre les variables X ^3 et X ^5 (proximité), la modeste contribution de la variable X ^1 (proche du cercle de corrélation) et l’indépendance entre la variable X ^2 et les variables X ^2 et X ^3 (angle à 45 ^{\circ}).

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/statug_princomp_sect004.htm

Package et fonction R: http://rpackages.ianhowson.com/cran/ade4/man/dudi.pca.html

\bullet Bibliographie:

– On lines and planes of closest fit to systems of points in space de Karl Pearson

– Probabilité, analyse des données et statistique de Gilbert Saporta

– Comprendre et utiliser les statistiques dans les sciences de la vie de Bruno Falissard

– Data mining et statistique décisionnelle. L’intelligence des données de Stéphane Tufféry

– Analyses factorielles simples et multiples de Brigitte Escofier et Jérôme Pagès