L’Indice U de Theil

add.png

\bullet Présentation:

Créé suite aux travaux d’Henri Theil en 1954, le coefficient U de Theil, également appelé coefficient d’incertitude ou coefficient d’entropie, est une approche non paramétrique consistant à fournir une mesure d’association entre deux variables qualitatives distinctes X ^1, X ^2 à K_1, K_2 \geq 2 modalités respectives.

Le U de Theil repose sur l’entropie de Shannon, ce qui veut dire que l’idée qui se cache derrière ce coefficient est de mesurer à quel degré nous pouvons prédire X ^2, respectivement X ^1, à partir de X ^1, respectivement X ^2. Ce mécanisme est la raison pour laquelle le U de Theil ne doit pas être considéré sans précaution car une interversion des deux variables peut amener à des résultats différents.

A l’instar du V de Cramér, du Q de Yule, du \phi de Pearson ou encore du T de Tschuprow, le coefficient U de Theil trouve toute son utilité lorsqu’il s’agit de pallier aux tests statistiques, notamment celui du \chi ^2 de Pearson, quand la taille d’échantillon est trop grande.

\bullet Le coefficient:

Hypothèse d’utilisation: Variables qualitatives à K_1, K_2 modalités.

La formule du coefficient U de Theil est:

U = \frac{H(X ^2) - H(X ^2/X ^1)}{H(X ^2)}

Où, en posant n_{l,c}, l \in [1, K_1], c \in [1,K_2] l’effectif de la cellule (l,c) issu du tableau croisé dynamique associé à X ^1, X ^2,

H(X ^2) est l’entropie marginale de formule:

H(X ^2) = - \sum_{l = 1} ^{K_1} S_l ln(S_l)

, avec S_l = \frac{1}{n} \sum_{c = 1} ^{K_2} n_{l,c}.

H(X ^2/X ^1) est l’entropie conditionnelle de formule:

H(X ^2 / X ^1) = -\sum_{c = 1} ^{K_2} [\frac{\sum_{l = 1} ^{K_1} n_{l,c}}{n} S ^c]

, avec S ^c = \sum_{l = 1} ^{K_1} \frac{n_{l,c}}{\sum_{l = 1} ^{K_1} n_{l,c}} ln( \frac{n_{l,c}}{\sum_{l = 1} ^{K_1} n_{l,c}}).

Une remarque d’importance dans la manipulation du U de Theil, lorsque n_{l,c} = 0 alors,

0 \cdot log(0) = 0

Le coefficient U de Theil varie entre 0 et 1. Plus il s’approche de sa borne supérieure, plus nous gagnons en certitude pour prédire les valeurs de X ^2 à partir de X ^1 et donc sommes en présence d’une forte liaison entre ces deux variables. Inversement, s’il s’approche de sa borne inférieure c’est que nous sommes dans une situation d’indépendance de X ^1, X ^2.

Variation du coefficient U de theil:

Le coefficient U de Theil se base sur l’entropie de Shannon qui correspond à la mesure de l’information détenue (voir délivrée pour les puristes) par un objet. L’une des propriété essentielle de l’entropie de Shannon est que plus un objet contient d’information et plus son entropie est faible.

Deux cas de figures d’intérêt se présentent à nous. Le premier,

U = 0 \Rightarrow \frac{H(X ^2) - H(X ^2 / X ^1)}{H(X ^2)} = 0 \Rightarrow H(X ^2) = H(X ^2 / X ^1)

, soit que l’information provenant de H(X ^2) est la même que celle de H(X ^2 / X ^1). Ce qui revient à dire qu’au final, nous n’avons pas besoin de X ^1 pour déterminer X ^2 et donc que ces deux variables sont indépendantes l’une de l’autre.

Le second cas,

U = 1 \Rightarrow \frac{H(X ^2) - H(X ^2 / X ^1)}{H(X ^2)} = 1

\Rightarrow H(X ^2) - H(X ^2 / X ^1) = H(X ^2)

\Rightarrow H(X ^2 / X ^1) = 0

, soit que l’entropie H(X ^2 / X ^1) est nulle et donc, par propriété, que l’information qu’elle détient est grande. Ce qui implique que l’information renvoyée par X ^1 pour X ^2 est suffisamment consistante pour permettre de prédire ses valeurs, ce que nous pouvons traduire par un lien fort entre X ^1, X ^2

\bullet Annexe théorique:

Cette partie présente la démonstration de: lim_{n \rightarrow 0} n \cdot ln(n) = 0.

Pour se faire, une astuce s’impose, remarquons que: X = \frac{1}{\frac{1}{X}}

Dés lors,

ln(X) = ln(\frac{1}{\frac{1}{X}}) = ln(1) - ln(\frac{1}{X}) = 0 - ln(\frac{1}{X}) = - ln(\frac{1}{X})

\Rightarrow ln(X) = - ln(\frac{1}{X})

\Rightarrow X ln(X) = \frac{1}{\frac{1}{X}} ln (\frac{1}{\frac{1}{X}})

\Rightarrow X ln(X) = \frac{- ln (\frac{1}{X})}{\frac{1}{X}}, \forall X \in ]0, + \infty[

Nous savons que \frac{1}{X} \rightarrow + \infty lorsque X \rightarrow 0 ^+. Donc, si nous posons le changement de variable suivant,

t = \frac{1}{X} \Rightarrow lim_{t \rightarrow \infty} \frac{ln(t)}{t} = 0

Ce dernier résultat se démontre en tant qu’aparthé à la démonstration en cours. Pour se faire, il faut prendre en compte que ce n’est pas possible directement mais en passant par la fonction:

f(t) = ln(t) - 2 \sqrt{t} définie sur [1, + \infty[

Sa dérivée est,

f'(t) = \frac{1}{t} - 2 \frac{1}{2 \sqrt{t}} = \frac{1}{t} - \frac{1}{\sqrt{t}} = \frac{1 - \sqrt{t}}{t} < 0 sur ]1, + \infty[

Nous en déduisons que f est une fonction décroissante sur son intervalle de définition.

Déterminons sa borne inférieure,

f(1) = ln(1) - 2 \sqrt{1} = - 2

Et sa borne supérieure,

lim_{t \rightarrow + \infty} f(t) = lim_{t \rightarrow + \infty} ln(t) - 2 lim_{t \rightarrow + \infty} \sqrt{t} = - \infty

, car le logarithme converge moins rapidement que la racine carré vers l’infini.

Ces deux informations nous permettent de conclure que f est une fonction décroissante, négative sur son intervalle de définition. Par conséquence,

f(t) = ln(t) - 2 \sqrt{t} < 0 \Rightarrow ln(t) < 2 \sqrt{t} \Rightarrow \frac{ln(t)}{t} < \frac{2 \sqrt{t}}{t} = \frac{2}{t}

L’objectif étant d’appliquer le théorème du Gendarme dont l’intérêt est que si les deux bornes d’une fonction convergent vers la même limite alors la limite de cette fonction est la leur. La borne supérieure étant déterminée, calculons la borne inférieure en X = 1,

\frac{ln(1)}{1} = \frac{0}{1} = 0

Ce qui implique que,

0 \leq \frac{ln(t)}{t} < \frac{2}{\sqrt{t}}, \forall i \geq 1 \Rightarrow 0 \leq \frac{ln(t)}{t} < 0 lorsque t \rightarrow \infty

\Rightarrow lim_{t \rightarrow \infty} \frac{ln(t)}{t} = 0

Maintenant, concluons la démonstration initiale, en rappelant notre précédant changement de variable: t = \frac{1}{X},

lim_{t \rightarrow \infty} \frac{ln(t)}{t} = lim_{X \rightarrow \infty} \frac{ln(\frac{1}{X})}{\frac{1}{X}} = 0

\Rightarrow lim_{X \rightarrow \infty} (-X ln(X)) = 0

\bullet Exemple:

Soit les deux variables X ^1, X ^2 ci-dessous,

add

Ci-dessous, l’histogramme des effectifs croisés de X ^1, X ^2 permet de voir que visuellement le groupe A de la variable X ^1 correspond généralement au groupe B de la variable X ^2 tandis que le groupe B de la variable X ^1 correspond aux groupes A et C de la variable X ^2.

add

Nous trouvons ci-dessous la table des fréquences:

add3

Dans un premier temps, calculons H(X ^2),

S_1 = \frac{1}{20} \sum_{c = 1} ^3 n_{1,c} = \frac{1 + 7 + 2}{20} = \frac{10}{20} = 0.5

S_2 = \frac{1}{20} \sum_{c = 1} ^3 n_{2,c} = \frac{5 + 0 + 5}{20} = \frac{10}{20} = 0.5

\Rightarrow H(X ^2) = - \sum_{l = 1} ^2 S_l \times log(S_l)

= -[0.5 \times (-0.6931472) + 0.5 \times (-0.6931472)]

= 0.6931472

Calculons maintenant H(X ^2 / X ^1),

\frac{1}{20} \times \sum_{l = 1} ^2 n_{l,1} = \frac{1+5}{20} = \frac{6}{20} = 0.3

, et S ^1 = \sum_{l = 1} ^2 \frac{n_{l,1}}{\sum_{l = 1} ^2 n_{l,1}} \times log(\frac{n_{l,1}}{\sum_{l = 1} ^2 n_{l,1}}) = \frac{1}{6} \times log(\frac{1}{6}) + \frac{5}{6} \times log(\frac{5}{6})

= 0.1666667 \times (-1.7917595) + 0.8333333 \times (-0.1823216)

= -0.2986266 - 0.1519346

= - 0.4505612

\frac{1}{20} \times \sum_{l = 1} ^2 n_{l,1} = \frac{7+0}{20} = \frac{7}{20} = 0.35

, et S ^2 = \sum_{l = 1} ^2 \frac{n_{l,2}}{\sum_{l = 1} ^2 n_{l,2}} \times log(\frac{n_{l,2}}{\sum_{l = 1} ^2 n_{l,2}}) = \frac{7}{7} \times log(\frac{7}{7}) + \frac{0}{7} \times log(\frac{0}{7})

= 1 \times 0 + 0

= 0

, puisque 0 \times log(0) = 0.

S ^3 = \frac{1}{20} \times \sum_{l = 1} ^2 n_{l,1} = \frac{2+5}{20} = \frac{7}{20} = 0.35

, et \sum_{l = 1} ^2 \frac{n_{l,3}}{\sum_{l = 1} ^2 n_{l,3}} \times log(\frac{n_{l,3}}{\sum_{l = 1} ^2 n_{l,3}}) = \frac{2}{7} \times log(\frac{2}{7}) + \frac{5}{7} \times log(\frac{5}{7})

= 0.2857143 \times (-1.2527630) + 0.7142857 \times (-0.3364722) = -0.3579323 - 0.2403373

= - 0.5982696

Par conséquent,

H(X ^2 / X ^1) = - [0.3 \times (- 0.4505612) + 0.35 \times 0 + 0.35 \times (- 0.5982696)]

= - 0.1351684 + 0 - 0.2093944

= 0.3445627

Enfin,

U = \frac{0.6931472 - 0.3445627}{0.6931472} = \frac{0.3485845}{0.6931472} = 0.5029011

Ce score reste assez haut, nous pouvons donc conclure en une forte association entre X ^1 et X ^2.

\bullet Application informatique:

Procédure SAS: support.sas.com/documentation/cdl/en/etsug/63348/HTML/default/viewer.htm#etsug_forecast_sect027.htm

Package et fonction R:

U.Theil = function(TABLE) {

# Le programme suivant calcul l’indice U de Theil pour la table TABLE

# Récupération des caractéristiques du tableau

n = sum(T)
L = dim(T)[1]
C = dim(T)[2]
sumLig = rowSums(T)
sumCol = addCol = colSums(T)
for (l in 2:L) {sumCol = rbind(addCol,sumCol)}
S = sumLig/n

# Calcul de l’entropie marginale H(Y)

H_Y = – sum(S*log(S))

# Calcul de l’entropie conditionnelle H(Y/X)

T_H_YX = colSums((T/sumCol)*log(T/sumCol))

# Gestion du cas particulier où des 0 sont contenus dans le tableau croisé TABLE en les fixant à 0

prob = which(T_H_YX!=0)
if (length(prob) != C) {
cas = 1:C
rectif.cas = cas[-prob]
T_H_YX[rectif.cas] = 0
}
H_YX = – sum((colSums(T)/n)*T_H_YX)

# Calcul de l’indice U de Theil

U = (H_Y – H_YX)/H_Y

# Retour du résultat

return(U)

}

\bullet Bibliographie:

– Étude des dépendances, variables qualitatives, tableau de contingence et mesures d’association de Ricco Rakotomolala

– A mathematical theory of communication de Claude E. Shannon