L’indice D de Somers et l’indice de Gini

add\bullet Présentation:

Nous présentons simultanément le Delta de Somers et l’indice de Gini étant donné leur lien plus qu’étroit. En effet, le Delta de somers est égal à l’indice de Gini et reste le plus populaire des deux probablement par sa simplicité d’utilisation.

Le Delta de Somers, inventé par R. H. Somers en 1962, et l’indice de Gini, inventé par Corrado Gini en 1910,  sont deux approches non paramétriques permettant de mesurer l’association entre X|_{g1} et X|_{g2}, les deux sous-échantillons d’une variable X continue restreinte aux deux groupes d’une variable Y qualitative binaire.

Ces deux indices peuvent également être calculés si X est une variable ordinale ou qualitative mais perdent nettement de leur intérêt.

\bullet Les indices:

Hypothèse préliminaire: X continue de préférence, Y binaire.

La formule du Delta de Somers est:

D_{X,Y} = \frac{n_c - n_d}{n_{g1} \times n_{g2}}

n_c est le nombre de paires concordantes et n_d le nombre de paires discordantes.

Si nous supposons un effet up-régulé (comprendre que les valeurs de X pour Y = g2 doivent être plus forte que celle pour Y = g1), alors une paire (i_1, i_2) est concordante, respectivement discordante, si (X|_{g2})_{i_2} > (X|_{g1})_{i_1}, respectivement si (X|_{g2})_{i_2} < (X|_{g1})_{i_1}.

Le Delta de Somers varie dans [- 1, + 1]. Plus l’indice D_{X,Y} s’approche de -1 ou +1 et plus la laison entre X et Y est forte (pour le premier cas nous concluerons que la relation est alors down-régulée et non up-régulée). Lorsque l’indice D_{X,Y} tourne autour de 0, cela implique qu’il n’y a pas d’association entre X et Y.

Tendance du Delta de Somers:

Remarquons que D_{X,Y} \rightarrow 0 si n_c \rightarrow n_d, et inversement, ou n_c, n_d \rightarrow 0 ce qui implique que nous avons quasiment que des ex-aequos et donc quelque soit le groupe de Y, X est identiquement distribué.

De plus, D_{X,Y} \rightarrow +1 si n_d \rightarrow 0, soit que nous n’avons que des paires concordantes et inversement D_{X,Y} \rightarrow -1 soit la présence quasi-exclusive de paires discordantes. Dans le premier cas nous avons bien un effet up-régulé de X par rapport à Y. Dans le second cas les paires sont toutes discordantes ce qui n’implique pas une distribution aléatoire de X par rapport à Y mais simplement que la relation est inversée soit down-régulée.

La formule de l’indice de Gini est:

I_G = 2 \cdot AUC - 1

AUC est la valeur de l’aire sous la courbe ROC variant dans [\frac{1}{2}, 1] et inversé au préalable s’elle est inférieure à \frac{1}{2} (mettant en évidence un effet down-régulé et non up-régulé).

L’indice de Gini varie dans [0, 1]. Plus l’indice I_G tend vers 1 et plus la relation entre X et Y est forte, et inversement plus I_G tend vers 0 plus la relation est faible voir inexistante.

Tendance de l’indice de Gini:

Nous avons donc,

2 \cdot AUC_{\mbox{cas aleatoire}} - 1 \leq I_G \leq 2 \cdot AUC_{\mbox{cas ideal}} - 1

\Rightarrow 2 \cdot \frac{1}{2} - 1 \leq I_G \leq 2 \cdot 1 - 1

\Rightarrow 1 - 1 \leq I_G \leq 2 - 1

\Rightarrow 0 \leq I_G \leq 1

L’indice de Gini est donc directement lié à la valeur de l’AUC.

\bullet Annexe théorique:

Nous profitons de cette partie pour montrer que D_{X,Y} = I_G.

Tout d’abord, remarquons que,

I_G = \frac{\mbox{Surface entre la courbe ROC observee et l'alea}}{\mbox{Surface entre la courbe ROC ideale et l'alea}}

= \frac{AUC - \frac{1}{2}}{1 - \frac{1}{2}}

= 2 \cdot AUC - 1

Assez logiqement la différence entre la courbe ROC observée et l’aléa est la valeur de l’AUC moins la diagonale de référence qui vaut \frac{1}{2}. Celle entre la courbe ROC dans un cas idéal et l’aléa est alors de 1 - \frac{1}{2} puisque le premier cas est toujours égale à 1.

L’indice de Gini n’est pas exclusivement réservé à la courbe ROC mais également au cas plus général de la courbe de lift ou courbe de Lorentz. Ainsi,

AUL = \int \mbox{ordonnee} d(\mbox{abscisse})

= \int \alpha \cdot d(Prob(X = \mbox{evenement}) \cdot Prob(score(X) > s / X = \mbox{evenement}) + (Prob(X = \mbox{non-evenement}) \cdot Prob(score(X) > s / X = \mbox{non-evenement})

= \int \alpha \cdot d(p\cdot \alpha + (1 - p) \cdot (1 - \beta))

= p \cdot (\int \alpha d \alpha) + (1 - p) \cdot (\int \alpha \cdot d(1 - \beta))

= \frac{p}{2} + (1 - p) \cdot AUC

En reprenant la formule de base de l’indice de Gini, nous avons:

I_G = \frac{AUC - \frac{1}{2}}{1 - \frac{p}{2} - \frac{1}{2}}

= \frac{\frac{p}{2} + (1 - p) \cdot AUC - \frac{1}{2}}{\frac{1- p}{2}}

= \frac{p + 2 \cdot (1 - p) \cdot AUC - 1}{1 - p}

= - \frac{(1 -p) - 2 \cdot (1 - p) \cdot AUC}{1 - p}

= - (1 - 2 \cdot AUC)

= 2 \cdot AUC - 1

Il nous reste à montrer désormais que D_{X,Y} = I_G.

Partons de la formule de l’AUC qui est en réalité la somme du nombre de paires concordantes et de paires ex-aequos,

AUC = \frac{1}{n_{g1} \cdot n_{g2}} \cdot [\sum_{i_1 = 1} ^{n_1} \sum_{i_2 = 1} ^{n_2} 1_{(X|_{g_1})_{i_1} > (X|_{g_2})_{i_2}} + \frac{1}{2} \sum_{i_1 = 1} ^n \sum_{i_2 = 1} ^n 1_{(X|_{g_1})_{i_1} = (X|_{g_2})_{i_2}}]

= \frac{1}{n_{g1} \cdot n_{g2}} \cdot [n_c + \frac{1}{2} \cdot (n_{g1} \cdot n_{g2} - n_c - n_d]

= \frac{1}{n_{g1} \cdot n_{g2}} \cdot [n_c - \frac{1}{2} \cdot n_c - \frac{1}{2} \cdot n_d + \frac{1}{2} \cdot n_{g1} \cdot n_{g2}]

= \frac{1}{n_{g1} \cdot n_{g2}} \cdot [\frac{1}{2} \cdot n_c - \frac{1}{2} \cdot n_d + \frac{1}{2} \cdot n_{g1} \cdot n_{g2}]

= \frac{1}{n_{g1} \cdot n_{g2}} \cdot \frac{1}{2} [n_c - n_d + n_{g1} \cdot n_{g2}]

= \frac{1}{2} \cdot \frac{n_c - n_d}{n_{g1} \cdot n_{g2}} + \frac{1}{2}

\Rightarrow 2 \cdot AUC - 1 = 2 \cdot [\frac{1}{2} \cdot \frac{n_c - n_d}{n_{g1} \cdot n_{g2}} + \frac{1}{2}] - 1

= \frac{n_c - n_d}{n_{g1} \cdot n_{g2}} + 1 - 1

= D_{X,Y}

\bullet Exemple:

Soit les variables X, Y ci-dessous,

add

Nous présentons la représentation dotplots qui permet de comparer  X|_{g_1}, X|_{g_2}, les distributions restreintes de X aux deux groupes de Y.

add

La courbe ROC associée, et d’AUC égal à 0.88, est,

addUne façon « propre » de résumer le calcul du nombre de paires concordantes et discordantes est d’ériger le tableau de taille n_1 \times n_2 contenant le score de concordance des différentes observations i_1 \in [1, \cdots, n_1] du groupe 1 par rapport aux i_2 \in [1, \cdots, n_2] du groupe 2. Nous obtenons alors le tableau T, pour n_1 = n_2 = 10:

addEn faisant la somme des 1, nous obtenons n_c = 88. Celle du nombre de 0 nous donne n_d = 22. Soit un Delta de Somers égal à:

D_{X,Y} = \frac{88 - 12}{10 \times 10} = \frac{76}{100} = 0.76

Selon cet indice, nous en concluons en une relation forte entre X et Y.

Quand à l’indice de Gini, il vaut également:

I_G = 2 \times 0.88 - 1 = 1.76 - 1 = 0.76

La conlusion reste la même que celle pour le Delta de Somers.

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect059.htm

Package et fonction R: http://www.inside-r.org/node/228978

\bullet Bibliographie:

– Data mining et statistique décisionnelle, l’intelligence des données de Stéphane Tufféry.

A New Asymmetric Measure of Association for Ordinal Variables de R. H. Somers

– Measurement of inequality of income de Corrado Gini

– Statistique, dictionnaire encyclopédique de Yadolah Dodge