La méthode DISQUAL

add

\bullet Présentation:

La méthode DISQUAL, qui est l’acronyme de DIScrimination sur variables QUALitatives, a été élaboré par Gilbert Saporta en 1975. Elle permet de discriminer une variable polychotomique Y à K \geq 2 classes à partir d’une matrice de variables qualitatives \mathbf{X} = (X ^1, \cdots, X ^P).

Le principe de base de la méthode DISQUAL est de combiner les bienfaits de l’Analyse des Correspondances Mulitples (ACM) avec celles de l’analyse discriminante linéaire ou quadratique de Fisher. Cette caractéristique fait de la méthode DISQUAL une sorte d’équivalent de la régression PLS (qui se base sur un mixte d’Analyse en Composantes Principales et de régression linéaire ou logistique), jouissant ainsi des mêmes propriétés bénéfiques qui sont: la possibilité de conserver plus de variables explicatives dans le modèle, des poids correctement réparties entre ces dernières et l’affranchissement des méfaits de la multicolinéarité.

Si la méthode DISQUAL est à réserver exclusivement à des variables qualitatives, une approche consistant à découper les variables continues en intervalles de valeurs pour les catégoriser est possible afin d’utiliser cet outil sur un format mixte de données.

\bullet DISQUAL:

Hypothèse préliminaire:  Y à K \geq 2 classes et \mathbf{X} qualitative.

L’Algorithme associé à la méthode DISQUAL se déroule à cinq étapes qui sont les suivantes,

– Étape 1: Faire une ACM sur \mathbf{X} et en sortir les projections des variables sur l’ensemble des composantes \mathbf{V} ainsi que celles des observations \mathbf{O}.

– Étape 2: Former la matrice (Y,\mathbf{O}) et sélectionner les axes non nuls et ainsi que ceux séparant au mieux les groupes de Y selon une analyse discriminante de Fisher linéaire ou quadratique sur les axes factorielles. Le critère utilisé en général est le \lambda de Wilks au seuil de 15\% puis 5\% en fonction du nombre d’axes retenus. Suite à ce premier filtre appliqué, (Y,\mathbf{O}) devient (Y,\mathbf{O} ^{D'}), D' ensemble des axes factorielles retenus.

– Étape 3: Appliquer un second filtre sur [latex](Y,\mathbf{O} ^{D'}) en retirant une par une les variables dont la p-valeur est la plus forte et en usant du critère de l'Aire (AUC), du volume (VUS) ou hypervolume (HUM) sous la Courbe ROC (AUC) en fonction du nombre de classe de Y obtenu selon une analyse discriminante de Fisher linéaire ou quadratique sur les axes factorielles. Nous supprimons ainsi les dimensions à partir desquelles ce critère chute. Suite à ce second filtre appliqué, (Y,\mathbf{O} ^{D'}) devient (Y,\mathbf{O} ^D)

- Étape 4: Nous lançons une analyse discriminante de Fisher linéaire ou quadratique sur (Y,\mathbf{O} ^D) et obtenons ainsi les coefficients associés à chacune de nos composantes. Nous recherchons l'estimation combinée à partir de ces coefficients obtenus en soustrayant les coefficients par composantes en fonction des groupes de Y (dans le cas où Y est polychotomique, la distance euclidienne peut être une option).

- Étape 5: Le calcul des coefficients \beta du modèle prédictif se fait alors en récupérant \mathbf{V} ^D et en multipliant les coordonnées de nos modalités de variables par les coefficients respectifs à chacun de ces axes et obtenus en étape 4. La règle décisionnelle est alors de la forme suivante,

Y = \sum_{p = 1} ^P \sum_{m_p = 1} ^{\sharp \lbrace \mbox{modalites de} X ^p \rbrace} \beta_p 1|_{X ^p = m_p}

A noter que nous pouvons également fixer une étape de sélection des variables à cet algorithme lors de l'étape 1. Il faudrait alors lancer une première ACM sur \mathbf{X}, supprimer les variables dont l'ensemble des modalités ne sont que très peu contributives à la formation des axes et relancer une nouvelle ACM sur l'ensemble épuré de ces variables.

\bullet Annexe théorique:

Nous présentons dans cette partie de l'article une esquisse de la démarche méthodologique justifiant l'utilisation de la méthode DISQUAL.

La méthode DISQUAL se base sur un mélange d'ACM et d'analyse discriminante de Fisher. L'Utilisation d'une ACM sur un tableau de données qualitative \mathbf{X} revient à, dans un premier temps, transformer notre matrice en un tableau disjonctif complet, soit un tableau de Q indicatrices valant 1 si l'observation a choisi tel modalité de tel variable et 0 sinon.

Le problème de discrimination revient alors à lancer un analyse discriminante de Fisher sur ce tableau disjonctif et à estimer les coefficients propres à chaque modalité de chaque variable (ce qui revient à dire à chaque variable du dit-tableau). Nous pouvons alors reformuler l'objectif en la maximisation de la distance de Mahalanobis entre les centres de gravité des différents groupes de Y.

En ce sens, la méthode DISQUAL s’inspire donc très largement de la régression sur composantes principales (ou de la régression PLS) en lançant une analyse discriminante de Fisher sur nos axes factoriels.

Soit b ^q les composantes de l'ACM et \lambda_q les valeurs propres qui leur sont associés. L'Une des formidables propriétés des axes factoriels construis via une ACM est qu'ils sont orthogonaux, rendant l'inversion des matrices nécessaires au calcul possible comparé au cas où nous aurions directement travaillé sur le tableau disjonctif complet. Nous pouvons alors obtenir le score \delta issue de la fonction de Fisher (dans le cas où Y binaire),

\delta = \sum_{q = 1} ^Q u_q b ^q

, avec,

\mathbf{u} = \begin{pmatrix} \cdot \\ u_q \\ \cdot \\ \end{pmatrix} = \mathbf{V} ^{-1} (\mu_1 - \mu_2) = \begin{pmatrix} \cdot \\ \frac{\overline{b_1} ^q - \overline{b_2} ^q}{\lambda_q} \\ \cdot \\ \end{pmatrix}

L'Avantage de s'appuyer sur l'ACM est qu'il suffit d’effectuer la combinaison linéaire avec les mêmes coefficients u_q des coordonnées de ses catégories. En effet, nous avons b ^q = \mathbf{X} a ^q, où a ^q vecteur des coordonnées des modalités dans le plan factoriel. Nous avons alors,

\delta = \sum_{q = 1} ^Q u_q \mathbf{X} a ^q = \mathbf{X} \sum_{q = 1} ^Q u_q a ^q

Le score s'exprime alors comme la somme de la combinaison linéaire des indicatrices des modalités pour chaque individu. A noter que la règle décisionnelle ne comporte volontairement pas de terme constant.

\bullet Exemple:

Soit le jeu de données ci-dessous,

add

Appliquons la méthode DISQUAL, nous commençons donc par une ACM sur \mathbf{X} = (X ^1, X ^2, X ^3, X ^4, X ^5) et sortons les coordonnées de nos individus sur les axes factoriels conçus,

add

Nous pouvons déjà filtrer six composantes sur les quinze attendues puisque nulles. Nous conservons donc Dim1, Dim2, \cdots, Dim9.

Maintenant nous devons filtrer les dimensions à partir du modèle Y = \beta_0 + \sum_{d = 1} ^D \beta_d Dim_d. Nous utilisons pour cela le test du \lambda de Wilks et obtenons les résultats suivants classés par ordre d'intégration selon une méthode descendante,

\begin{tabular} {|l|c|} \hline Axe & p-valeur \\ \hline Dim1 & 0.0007 \\ \hline Dim2 & 0.0010 \\ \hline Dim4 & 0.0078 \\ \hline Dim3 & 0.0415 \\ \hline Dim9 & 0.0372 \\ \hline Dim5 & 0.0198 \\ \hline Dim8 & 0.0284 \\ \hline \end{tabular}

Au seuil de 5 \%, sept axes sont significatifs. Par conséquent, nous les conservons tous à cette étape. Appliquons maintenant un second filtre basé sur l'AUC. Nous obtenons alors,

\begin{tabular} {|l|c|} \hline Suppression & AUC \\ \hline Dim8 & 1 \\ \hline Dim5 & 1 \\ \hline Dim9 & 1 \\ \hline Dim3 & 1 \\ \hline Dim4 & 0.99 \\ \hline Dim2 & 0.92 \\ \hline Dim1 & 0.51 \\ \hline \end{tabular}

Il ressort du tableau ci-dessus que nous pouvons supprimer les dimensions Dim_8, Dim_5, Dim_9, Dim_3) puisque sur le modèle Dim_4, Dim_2, Dim_1, l'AUC reste maximale.

Maintenant nous faisons tourner une nouvelle analyse discriminante de Fisher sur le modèle retenu et calculons le score en fonction des prédictions. Nous obtenons,

\begin{tabular} {|l|c|c|c|} \hline Axe & Coeff A & Coeff B & Score \\ \hline Cst & -2.18810 & -2.18810 & 0 \\ \hline Dim1 & 4.77941 & -4.77941 & 9.5588283314 \\ \hline Dim2 & 3.87168 & -3.87168 & 7.7433688952 \\ \hline Dim4 & -3.53072 & 3.53072 & -7.061434395 \\ \hline \end{tabular}

Nous avons maintenant nos coefficients par axe factoriel retenu. Place à l'estimation des coefficients de la règle décisionnelle en fonction des coordonnées des modalités de variables sur les axes Dim1, Dim2, Dim4,

\begin{tabular} {|l|c|c|c|c|} \hline Modalites & Dim1 & Dim2 & Dim4 & Coefficient \\ \hline X1 = 1m & 1.4525 & -0.0724 & -0.0991 & 14.024033312 \\ \hline X1 = 2m & -0.5044 & 1.0807 & -0.4710 & 2.507363696 \\ \hline X1 = 3m & -0.7407 & -1.0187 & -0.0623 & -14.52796362 \\ \hline X2 = 1m & 0.0672 & 0.1352 & 1.1090 & -6.141877623 \\ \hline X2 = 2m & 0.4744 & -0.59144 & -0.2168 & 1.4867091678 \\ \hline X2 = 3m & -0.5321 & 0.4756 & -0.7337 & 3.7777573659 \\ \hline X3 = 1m & -0.7178 & 0.4918 & 0.7324 & -8.225486258 \\ \hline X3 = 2m & 1.0569 & 0.4305 & -0.0022 & 13.451550502 \\ \hline X3 = 3m & -0.4416 & -0.8520 & -0.6256 & -6.401133709 \\ \hline X4 = 1m & 1.4525 & -0.0724 & -0.0991 & 14.024033312 \\ \hline X4 = 2m & -0.6846 & 0.6239 & -0.4711 & 1.163251329 \\ \hline X4 = 3m & -0.5604 & 0.5619 & 0.5560 & -13.63385131 \\ \hline X5 = 1m & -0.2261 & 1.2179 & -0.2590 & 9.098504086 \\ \hline X2 = 2m & 0.7383 & -0.1965 & 0.1248 & 4.6541658144 \\ \hline X5 = 3m & -0.5445 & 0.8474 & 0.0972 & -12.4528836 \\ \hline \end{tabular}

\bullet Application informatique:

Procédure SAS: http://od-datamining.com/download/#macro

Package et fonction R: http://finzi.psych.upenn.edu/library/DiscriMiner/html/disqual.html

\bullet Bibliographie:

- Probabilité, analyse des données et Statistique de Gilbert Saporta.

- Data Mining et statistique décisionnelle de Stéphane Tufféry.