Le positionnement multidimensionnel

\bullet Présentation:

Le positionnement multidimensionnel ou échelonnement multidimensionnel, élaboré par Joseph Bernard Kruskal en 1964, est un outil de la famille de l’analyse exploratoire permettant d’étudier les similarités ou dissimilarités au sein d’une matrice \mathbf{X} = (X ^1, \cdots, X ^P) de P variables continues.

Le positionnement multidimensionnel, connu sous l’appellation MDS également, se concentre exclusivement sur la projection des observations dans un plan visuellement interprétable.

Elle peut être vue comme une généralisation voir une extension de l’Analyse en Composantes Principales (ACP) ou de l’Analyse des Correspondances Multiples (ACM) car basée sur le même procédé mais permettant la gestion de relations non linéaires. Cette propriété provient du fait qu’elle travaille directement sur la matrice de similarité/dissimilarité issue de \mathbf{X} qui peut être paramétrée selon un large panel de fonctions de lien.

\bullet Le positionnement multidimensionnel:

Hypothèse préliminaire: Aucune.

L’Algorithme MDS et assez simple voir classique d’utilisation et se déroule selon les étapes suivantes,

– Étape 1: Construction de la matrice de similarité/dissimilarité \mathbf{D_X} de taille n \times n selon une fonction lien fixée et qui peut être linéaire ou non linéaire.

– Étape 2: Élévation au carré de \mathbf{D_X}. A noter que nous aurons besoin de la version symétrique de cette matrice, qui l’est bien évidemment par construction mais dont la représentation se résume souvent aux éléments triangulaires inférieurs exclusivement.

– Etape 3: Sortie des valeurs propres \lambda et des vecteurs propres \mathbf{V} associés à \mathbf{D_X} ^2.

– Etape 4: Calcul des projections des observations en multipliant les facteurs par la racine carré de leur valeur propre associées,

\mathbf{Proj} = (V ^1 \sqrt{\lambda_1}, \cdots, V ^n \sqrt{\lambda_n})

L’Interprétation se fait comme pour une ACP ou une ACM. A savoir que plus les observations sont proches et plus elles décrivent un profil commun. Enfin, les observations ou groupes observations s’opposent en fonction de leur coordonnée sur les axes retenus.

\bullet Annexe théorique:

La partie suivante de l’article présente la notion de valeurs propres et de vecteurs propres.

Soit E un espace vectoriel sur un corps commutatif K et donc munit des opérateurs fondamentaux: l’addition, la soustraction, la multiplication et la division. Par propriété, les éléments de E sont alors des vecteurs tandis que ceux de K sont des scalaires. Et soit f un endomorphisme de forme,

f: E \rightarrow E

Une valeur propre est alors: Un scalaire noté \lambda associé àf tel que,

\exists x \ne 0, f(x) = \lambda x

Les valeurs propres d’une matrice carrée \mathbf{A} de taille P \times P sont les valeurs propres de l’endomorphisme de K ^P de la matrice \mathbf{A} dans la base canonique et dont la propriété fondamentale est que les coordonnées de tout vecteur de l’espace dans cette base sont données par les composantes mêmes qui les constituent.

Si E de dimension finie P, les valeurs propres de f sont:

– les racines du polynôme caractéristique commun de forme,

det(\mathbf{X} \cdot Id - f) = det (\mathbf{X} \cdot Id - \mathbf{A})

– toutes les valeurs spectrales de f ou \mathbf{A}.

Les valeurs propres \lambda se déterminent en recherchant le vecteur,

\lambda, det(\mathbf{A} - \lambda Id) = 0

Lors de la manipulation de l’objet ci-dessus, \lambda est identique d’une élément à l’autre de la diagonale, c’est lors de sa résolution que les différentes valeurs possibles de \lambda forment alors le vecteur \lambda_1, \dots, \lambda_P. Il s’agit là de la principale explication pour laquelle, si tous les vecteurs de \mathbf{A} sont indépendants et donc peuvent être vue comme distribués aléatoirement les uns par rapport aux autres, alors \lambda_1 \approx \lambda_2 \approx \cdots \lambda_P.

Un vecteur propre est alors: un vecteur x non nul de E, dit vecteur propre de f et associé à \lambda s’il est de la forme,

f(x) = \lambda x

Les vecteurs propres (associés à une valeur propre \lambda) d’une matrice carrée \mathbf{A} sont les vecteurs propres (associés à la valeur propre \lambda) de l’endomorphisme de K ^P représenté par \mathbf{A}. L’ensemble des vecteurs propres associés à une matrice porte le nom de spectre. Deux propriétés fondamentales sont à considérer,

– un même vecteur propre ne peut être associé à deux valeurs propres différentes,

– une famille de P vecteurs propres associés chacun à une unique valeur propre constitue une famille libre, autrement dit, la seule combinaison linéaire des P vecteurs propres qui donnent le vecteur nul est celle pour laquelle \lambda = 0.

Les vecteurs propres x se déterminent en recherchant le vecteur,

(x ^1, \dots, x ^P), \lambda_p, p \in [1, P],( \mathbf{A} - \lambda Id) \mathbf{X} = 0

La résolution se fait alors valeur propre par valeur propre, consituant ainsi de manière itérative la construction de nos vecteurs propres. La propriété d’affectation unique d’une valeur propre à un vecteur propre provient de cette méthode de calcul, puisque chaque valeur propre sera unique, nous en déduisons que le vecteur propre calculé le sera également.

D’Un point de vue pratique, une valeur propre peut être vue comme une mesure de l’information contenue dans le vecteur propre qui lui est associé. Plus elle est grande, par rapport aux autres valeurs propres, et plus le vecteur propre étire le nuage de point et donc restitue la variance de l’échantillon. A contrario, si les vecteurs de \mathbf{A} sont indépendants, les valeurs propres seront alors très proches et donc les vecteurs propres également, d’où l’absence d’information ou plutôt de discrimination induit par les axes.

\bullet Exemple:

Soit le jeu de données suivant,

add

Nous nous limitons à la recherche de deux axes factoriels afin de simplifier la lecture des résultats finaux.

Dans un premier temps, calculons la matrice de distance selon la norme euclidienne,

\mathbf{D_X} = \begin{pmatrix} Obs & 1 & 2 & 3 & \cdots & 18 & 19 & 20 \\ 1 & 0 & 2.399264 & 7.883224 & \cdots & 21.421600 & 23.647763 & 24.357353 \\ 2 & 2.399264 & 0 & 7.958839 & \cdots & 19.718820 & 21.653041 & 22.264297 \\ 3 & 7.883224 & 7.958839 & 0 & \cdots & 20.082169 & 21.165185 & 22.325087 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 18 & 21.421600 & 19.718820 & 20.082169 & \cdots & 0 & 8.294253 & 9.414303 \\ 19 & 23.647763 & 21.653041 & 21.165185 & \cdots & 8.294253 & 0& 2.783625 \\ 20 & 24.357353 & 22.264297 & 22.325087 & \cdots & 9.414303 & 2.783625 & 0 \\ \end{pmatrix}

, que nous élevons au carré,

\mathbf{D_X} ^2 = \begin{pmatrix} Obs & 1 & 2 & 3 & \cdots & 18 & 19 & 20 \\ 1 & 0 & 5.75647 & 62.14522 & \cdots & 458.88495 & 559.216688 & 593.280624 \\ 2 & 5.75647 & 0 & 63.34313 & \cdots & 388.83187 & 468.854192 & 495.69612 \\ 3 & 62.14522 & 63.34313 & 0 & \cdots & 388.83187 & 468.854192 & 495.69612 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 18 & 458.88495 & 388.83187 & 403.29352 & \cdots & 0 & 68.794629 & 88.629093 \\ 19 & 559.21669 & 468.85419 & 447.96507 & \cdots & 68.79463 & 0& 7.748568 \\ 20 & 593.28062 & 495.69891 & 498.40953 & \cdots & 88.62909 & 7.748568 & 0 \\ \end{pmatrix}

Maintenant, nous pouvons extraire directement les valeurs propres et vecteurs propres associés à nos deux axes d’intérêt,

\lambda = (1232.0742, 603.0851)

, et,

\mathbf{V} = \begin{pmatrix} -0.33694356 &-0.2318659 \\ -0.28077941 & -0.2464647 \\ -0.25183323 & -0.2319835 \\ -0.23399253 & -0.1517208 \\ -0.19099322 & -0.1269469 \\ -0.26124237 & 0.2349641 \\ -0.21332495 & 0.2355275 \\ -0.16415724 & 0.2476648 \\ -0.14203587 & 0.1697586 \\ -0.09004166 & 0.1638683 \\ 0.07253286 & 0.2232178 \\ 0.08083402 & 0.2673542 \\ 0.14760548 & 0.2670581 \\ 0.20451644 & 0.2378346 \\ 0.22376925 & 0.3204969 \\ 0.19139369 & -0.0885641 \\ 0.20316062 & -0.1760915 \\ 0.25231958 & -0.1902502 \\ 0.32202642 & -0.2158966 \\ 0.33651525 & -0.3021356 \end{pmatrix}

Nous réajustons \mathbf{V} par \sqrt{\lambda} en calculant V ^1 \times \sqrt{\lambda_1} et V ^2 \times \sqrt{\lambda_2} et obtenons,

\mathbf{V} ^* = \begin{pmatrix} -11.827027 & -5.694113 \\ -9.855614 & -6.052628 \\ -8.839577 & -5.697002 \\ -8.213352 & -3.725929 \\ -6.704037 & -3.117535 \\ -9.169846 & 5.770199 \\ -7.487901 & 5.770199 \\ -7.487901 & 5.784036 \\ -5.762069 & 6.082101 \\ -4.985589 & 4.168897 \\ -3.160545 & 4.024244 \\ 2.545970 & 5.481737 \\ 2.837348 & 6.565629 \\ 5.181087 & 6.558358 \\ 7.178714 & 5.840693 \\ 7.854505 & 7.870695 \\ 6.718093 & -2.174939 \\ 7.131123 & -4.324418 \\ 8.856648 & -4.672125 \\ 11.303422 & -5.301944 \\ 11.811993 & -7.419784 \\ \end{pmatrix}

Nous avons donc pour chaque observation les coordonnées sur les deux axes factoriels retenus. Nous pouvons alors tracer la carte des individus dans le repère construit,

add

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mds_sect004.htm

Package et fonction R: https://stat.ethz.ch/R-manual/R-devel/library/stats/html/cmdscale.html

\bullet Bibliographie:

Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis de Joseph Bernard Kruskal.

– Comprendre et utiliser les statistiques dans les sciences de la vie de Bruno Falissard.