Les indices de Goodman-Kruskal

add

\bullet Présentation:

Publié en 1954 suite aux travaux de Leo A. Goodman et William Henry Kruskal, les indices \tau, \lambda, \gamma sont des approches non paramétriques permettant de quantifier la liaison entre deux variables qualitatives distinctes X ^1, X ^2.

Le \lambda et le \tau de Goodman-Kruskal sont semblables à ceci prés que le premier repose sur les probabilités modales et le second repose sur les probabilités d’affectation à une modalité aléatoire. L’avantage de ces deux indicateurs est qu’ils permettent de travailler sur des variables qualitatives à K_1, K_2 \geq 2 modalités.

Le \gamma de Goodman-Kruskal est une mesure symétrique et est régulièrement utilisé dans une approche similaire au calcul de l’AUC ou encore au D de Somers et à l’indice de Gini afin de fournir un indicateur sur le taux de paires concordantes et discordantes entre deux variables qualitatives binaires.

\bullet Les tests:

Soit le tableau croisé entre X ^1, X ^2. Nous noterons n_{l,c} l’effectif associé à la ligne l \in [1,L] et à la colonne c \in [1,C] de ce tableau, que nous pouvons reformuler comme l’effectif issu du croisement entre la modalité l de X ^1 et la modalité c de X ^2.

Le \gamma de Goodman-Kruskal

Hypothèse préliminaire: Variables qualitatives à deux modalités.

La formule du coefficient \gamma est:

\gamma = \frac{n_{1,1} \cdot n_{2,2} - n_{1,2} \cdot n_{2,1}}{n_{1,1} \cdot n_{2,2} + n_{1,2} \cdot n_{2,1}} = \frac{P(X ^1, X ^2 \mbox{concordants}) - P(X ^1, X ^2 \mbox{discordants})}{P(X ^1, X ^2 \mbox{concordants}) + P(X ^1, X ^2 \mbox{discordants})}

Le \gamma de Goodman-Kruskal varie dans [0, 1]. Plus il est proche de 0, moins bonne est l’association, et inversement, plus il est proche de 1, meilleure elle l’est.

Variation du \gamma de Goodman-Kruskal:

Nous avons donc,

0 \leq \gamma \leq 1 \Rightarrow 0 \leq  \frac{n_{1,1} \cdot n_{2,2} - n_{1,2} \cdot n_{2,1}}{n_{1,1} \cdot n_{2,2} + n_{1,2} \cdot n_{2,1}} \leq 1

\Rightarrow 0 \leq n_{1,1} \cdot n_{2,2} - n_{1,2} \cdot n_{2,1} \leq n_{1,1} \cdot n_{2,2} + n_{1,2} \cdot n_{2,1}

Nous en déduisons que le \gamma de Goodman-Kruskal converge vers 0 si n_{1,1} \cdot n_{2,2} \approx n_{1,2} \cdot n_{2,1} soit que le produit des effectifs croisés des deux diagonales sont similaires et donc que les effectifs sont distribués aléatoire au sein du tableau croisé entre X ^1, X ^2. Ce qui revient donc à dire que ces les deux variables sont distribuées aléatoirement l’une par rapport à l’autre d’où une mesure d’association nulle.

Dans l’autre cas, n_{1,1} \cdot n_{2,2} - n_{1,2} \cdot n_{2,1} \approx n_{1,1} \cdot n_{2,2} - n_{1,2} \cdot n_{2,1} si n_{1,1} \cdot n_{2,2} \approx 0 ou n_{1,2} \cdot n_{2,1} \approx 0. Ce qui revient à dire que l’une des deux diagonales contient un croisement entre X ^1, X ^2 nul et donc qu’au moins pour l’un des croisements de modalités de X ^1, X ^2 une relation peu-être observée traduisant un lien entre ces deux variables.

Le \lambda de Goodman-Kruskal

Hypothèse préliminaire: Variables qualitatives à K_1, K_2 \geq 2 modalités.

Le coefficient \lambda:

\lambda = \frac{\sum_{c = 1} ^C max_{l \in [1,L]} (n_{l,c}) - max_{l \in [1,L]} (\sum_{c = 1} ^C n_{l,c})}{n - max_{l \in [1,L]} (\sum_{c = 1} ^C n_{l,c})}

Le \lambda de Goodman-Kruskal varie dans [0, 1]. Plus il est proche de 0, moins bonne est l’association, et inversement, plus il est proche de 1, meilleure elle l’est.

Variation du \lambda de Goodman-Kruskal:

Nous avons donc,

0  \leq \frac{\sum_{c = 1} ^C max_{l \in [1,L]} (n_{l,c}) - max_{l \in [1,L]} (\sum_{c = 1} ^C n_{l,c})}{n - max_{l \in [1,L]} (\sum_{c = 1} ^C n_{l,c})} \leq 1

\Rightarrow 0  \leq \sum_{c = 1} ^C max_{l \in [1,L]} (n_{l,c}) - max_{l \in [1,L]} (\sum_{c = 1} ^C n_{l,c}) \leq n - max_{l \in [1,L]} (\sum_{c = 1} ^C n_{l,c})

La mesure tend vers 0 lorsque \sum_{c = 1} ^C max_{l \in [1,L]} (n_{l,c}) \approx max_{l \in [1,L]} (\sum_{c = 1} ^C n_{l,c}). Soit que pour chaque colonne c, la somme des cellules concentrant le plus grand nombre d’observations est également à la plus grande somme des cellules par ligne. Ce cas de figure se présente soit si l’une des deux variables n’a qu’une seule modalité ou bien si les différentes cellules regroupent le même nombre d’observations, traduisant là une distribution aléatoire de X ^1, X ^2 et donc une absence d’association.

Enfin, la mesure tend vers 1 lorsque,

\sum_{c = 1} ^C max_{l \in [1,L]} (n_{l,c}) - max_{l \in [1,L]} (\sum_{c = 1} ^C n_{l,c}) \approx n - max(\sum_{c = 1} ^C n_{l,c})

\Rightarrow \sum_{c = 1} ^C max_{l \in [1,L]} (n_{l,c}) \approx n

Soit que la somme des cellules en colonne qui regroupe le plus d’observations donne l’effectif totale, ce qui correspond au cas où chaque croisement de modalités rassemblent une part authentique d’observations et donc qu’il y a bien une relation spécifique entre X ^1, X ^2.

Le \tau de Goodman-Kruskal

Hypothèse préliminaire: Variables qualitatives à K_1, K_2 \geq 2 modalités.

Le coefficient \tau:

\tau= 1 - \frac{n ^2 - n \sum_{l = 1} ^L \sum_{c = 1} ^C \frac{n_{l,c} ^2}{\sum_{c = 1} ^C n_{l,c}}}{n ^2 - \sum_{c = 1} ^C (\sum_{l = 1} ^L n_{l,c}) ^2}

Le numérateur porte le nom d’erreur non conditionnelle qu’il est possible de trouver sous la notation S_{X ^2}, tandis que le dénominateur représente l’erreur conditionnelle qu’il est possible de trouver sous la notation S_{X ^2 / X ^1}.

Le \lambda de Goodman-Kruskal varie dans [0, 1]. Plus il est proche de 0, moins bonne est l’association, et inversement, plus il est proche de 1, meilleure elle l’est.

Variation du \tau de Goodman-Kruskal:

Nous avons donc,

0 \leq 1 - \frac{S_{X ^2 / X ^1}}{S_{X ^2}} \leq 1 \Rightarrow 0 \leq \frac{S_{X ^2} - S_{X ^2 / X ^1}}{S_{X ^2}} \leq 1 \Rightarrow \leq S_{X ^2} - S_{X ^2 / X ^1} \leq S_{X ^2}

Si \tau converge vers 0 cela implique que S_{X ^2} \approx S_{X ^2 / X ^1}, soit que l’erreur non conditionnelle et l’erreur conditionnelle sont égales. Par conséquent, ce résultat traduit une distribution aléatoire de X ^2 en fonction de X ^1 et donc l’absence de liaison entre les deux variables.

Si \tau converge vers 1, cela implique que S_{X ^2} - S_{X ^2 / X ^1} \approx S_{X ^2} \Rightarrow S_{X ^2 / X ^1} \approx 0. Soit une erreur conditionnelle faible et donc la présence d’une forte liaison entre X ^2, X ^1.

\bullet Annexe théorique:

Cette partie de l’article présente la variance des trois indices de Goodman-Kruskal présentés sans les démontrer.

Variance de l’indice \gamma:

\sigma_{\gamma} ^2 = \frac{16}{(C + D) ^4} \sum_{l = 1} ^L \sum_{c = 1} ^C (D \cdot \sharp \lbrace \mbox {Paires concordantes pour le couple} (l,c) \rbrace - C \cdot \sharp \lbrace \mbox {Paires discordantes pour le couple} (l,c) \rbrace) ^2 

Variance de l’indice \lambda:

\sigma_{\lambda} ^2 = \frac{\sum_{c = 1} ^C \sum_{l = 1} ^L (\delta_{l,c} - \delta_{l,.} + \lambda \delta_{l,.}) ^2 - n \lambda ^2}{[n - max_{l \in [1,L]} (n_{l,.})] ^2}

, avec \delta_{l,c} = 1 si l = arg max_i (n_{i,c}), 0 sinon.

Variance de l’indice \tau:

\sigma_{\tau} ^2 = \frac{4}{\sigma ^4} \sum_{c = 1} ^C \sum_{l = 1} ^L n_{l,c} [(v - \delta) (\frac{1}{n_{.,c}} \sum_{l = 1} ^L n_{l,c} n_{l,.} - n_{l,.}) - n \delta (\frac{1}{n_{.,c} ^2} \sum_{l =1} ^L n_{l,c} ^2 - \frac{n_{l,c}}{n_{.,c}})] ^2

, avec \delta = n ^2 - \sum_{l = 1} ^L n_{.,l} ^2 et v = n \sum_{c = 1} ^C \sum_{l = 1} ^L \frac{n_{l,c} ^2}{n_{.,c}} - \sum_{l = 1} ^L n_{l,.} ^2.

\bullet Exemple:

Soit l’échantillon suivant:

add.png

Nous construisons le tableau croisé associé à X ^1, X ^2 et nous obtenons,

add1

Ce tableau permet de voir que les deux variables semblent indépendantes. Quantifions cette association.

Le \gamma de Goodman-Kruskal

Nous avons donc,

\gamma = \frac{4 \times 7 - 3 \times 6}{4 \times 7 + 3 \times 6} = \frac{28 - 18}{28 + 18} = \frac{10}{46} = 0.217391304

Nous en concluons que l’association entre X ^1, X ^2 est faible.

Le \lambda de Goodman-Kruskal

Nous avons donc,

\lambda = \frac{\sum_{c = 1} ^2 max_{l \in [1,2]} (n_{l,c}) - max_{l \in [1,2]} (\sum_{c = 1} ^2 n_{l,c})}{20 - max_{l \in [1,2]} (\sum_{c = 1} ^2 n_{l,c})}

= \frac{max_{l \in [1,2]} (n_{l,1}) + max_{l \in [1,2]} (n_{l,2}) - max_{l \in [1,2]} (\sum_{c = 1} ^2 n_{l,c})}{20 - max_{l \in [1,2]} (\sum_{c = 1} ^2 n_{l,c})}

= \frac{max(4,3) + max(6,7) - max(4+6,3+7)}{20 - max(10,10)}

= \frac{4 + 7 - 10}{20 - 10}

= \frac{11 - 10}{10}

= \frac{1}{10}

= 0.1

Nous en concluons que l’association entre X ^1, X ^2 est faible.

Le \tau de Goodman-Kruskal

Nous avons donc,

\tau = 1 - \frac{20 ^2 - 20 \times \sum_{l = 1} ^2 \sum_{c = 1} ^2 \frac{n_{l,c} ^2}{\sum_{c = 1} ^2 n_{l,c}}}{20 ^2 - \sum_{c = 1} ^2 (\sum_{l = 1} ^2 n_{l,c} ^2)}

Le numérateur vaut alors,

400 - 20 \times [\frac{n_{1,1} ^2}{n_{1,1} + n_{1,2}} + \frac{n_{1,2} ^2}{n_{1,1} + n_{1,2}}] - 20 \times [\frac{n_{2,1} ^2}{n_{2,1} + n_{2,2}} + \frac{n_{2,2} ^2}{n_{2,1} + n_{2,2}}]

= 400 - 20 \times  [\frac{4 ^2}{4 + 6} + \frac{6 ^2}{4 + 6}] - 20 \times [\frac{3 ^2}{3 + 7} + \frac{7 ^2}{3 + 7}]

= 400 - 20 \times \frac{52}{10} - 20 \times \frac{58}{10}

= 400 - 104 - 116

= 180

Et le dénominateur,

20 ^2 - [(4 + 3) ^2 + (6 + 7) ^2] = 400 - (49 + 169) = 400 - 218 = 182

Par conséquent,

\tau = 1 - \frac{180}{182} = 1 - 0.989011 = 0.01098901

Nous en concluons que l’association entre X ^1, X ^2 est faible.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/statug/65328/HTML/default/viewer.htm#statug_freq_details22.htm

Package et fonction R: http://www.inside-r.org/node/228864

\bullet Bibliographie:

– Measures of Association for Cross Classifications de Leo A. Goodman et William Henry Kruskal

– Probabilité, analyse de données et Statistique de Gilbert Saporta

– Étude des dépendances. Variables qualitatives. Tableau de contingence et mesures d’association de Ricco Rakotomalala