Le T de Tschuprow

add\bullet Présentation:

Publié en 1939 par alexander Alexandrovich Tschuprow (qui peut s’écrire également Chuprov) , le T de Tschuprow est une mesure d’association entre deux variables qualitatives distinctes X ^1, X ^2 à K \geq 2 modalités.

A l’instar du V de Cramer, il représente une alternative au test du \chi ^2 de Pearson en permettant de s’affranchir de l’influence des grands échantillons.

\bullet La mesure d’association:

Hypothèse préliminaire: variables qualitatives distinctes à K \geq 2 modalités.

La mesure d’association: Le T de Tschuprow peut s’écrire selon deux formules, l’une inédite (que nous présentons en partie théorie) et l’autre directement fondée sur le \chi ^2 de Pearson (que nous présenterons ici car plus pratique d’utilisation).

Cette mesure d’association permet de pallier aux grands échantillons, assurant ainsi un indicateur plus robuste que le test du \chi ^2 de Pearson. Néanmoins, il est compliqué de fournir une échelle au travers de laquelle nous pouvons juger de la force de l’association, amenant à une interprétation objective des résultats en fonction de l’utilisateur.

En posant K_1 le nombre de modalités de X ^1 et K_2 celui de X ^2, le T de Tschuprow varie dans l’intervalle [1, T_{max}]:

[1, \cdots, (\frac{min (K_1 - 1, K_2 - 1)}{max (K_1 - 1, K_2 - 1)}) ^{\frac{1}{4}}]

La formule du T de Tschuprow est:

T = \sqrt{\frac{\chi ^2}{N \cdot \sqrt{(K_1 - 1) \cdot (K_2 - 1)}}}

Nous retrouvons ainsi la valeur de la statistique de test du \chi ^2 de Pearson directement impliquée dans le calcul du T.

Variation de la mesure d’association:

Deux cas de figure sont à regarder, celui où T = 0 et celui où T \rightarrow T_{max}.

Etant donné que nous passerons par le développement de la formule du \chi ^2 de Pearson, rappelons que si nous considérons le tableau croisé dynamique issue des variables X ^1, X ^2, n_{l,c} correspond aux effectifs bruts des cellules et e_{l,c} à ceux théoriques issues d’une approche aléatoire des données.

– Dans le premier cas,

T = 0 \Rightarrow \sqrt{\frac{\chi ^2}{N \cdot \sqrt{(K_1 - 1) \cdot (K_2 - 1)}}} = 0

\Rightarrow \chi ^2 = 0

\Rightarrow \sum_{l = 1} ^{K_1} \sum_{c = 1} ^{K_2} \frac{(n_{l,c} - e_{l,c}) ^2}{e_{l,c}} = 0

\Rightarrow \forall l,c nous avons n_{l_,c} - e_{l,c} = 0

\Rightarrow n_{l,c} = e_{l,c}, soit une distribution aléatoire.

– Le second cas,

T = (\frac{min (K_1 - 1, K_2 - 1)}{max (k_1 - 1, K_2 - 1)}) ^{\frac{1}{4}}\Rightarrow \sqrt{\frac{\chi ^2}{N \cdot \sqrt{(K_1 - 1) \cdot (K_2 - 1)}}} = (\frac{min (K_1 - 1, K_2 - 1)}{max (K_1 - 1, K_2 - 1)}) ^{\frac{1}{4}}

\Rightarrow \frac{\chi ^2}{N \cdot \sqrt{(K_1 - 1) \cdot (K_2 - 1)}} = \sqrt{\frac{min(K_1 - 1, K_2 - 1)}{max (K_1 - 1, K_2 - 1)}}

\Rightarrow \chi ^2 = N \cdot \sqrt{(K_1 - 1) \cdot (K_2 - 1)} \cdot \sqrt{\frac{min (K_1 - 1, K_2 - 1)}{max (K_1 - 1, K_2 - 1)}}

En fonction de la construction du format de notre jeu de données, nous  obtenons:

\chi ^2 = N \cdot (K_1 - 1) ou \chi ^2 = N \cdot (K_2 - 1), correspondant aux deux cas particuliers où n_{l,c} >>>>>>> e_{l,c}, \forall l,c.

\bullet Annexe théorique:

La formule de base du T de Tschuprow est:

T = \sqrt{\frac{\phi ^2}{\sqrt{(K_1 - 1) \cdot (K_2)}}}

Où,

\phi ^2 = \sum_{l = 1} ^{K_1} \sum_{c = 1} ^{K_2} [\frac{\pi_{l,c} - \pi_{l,+} \cdot \pi_{+,c}) ^2}{\pi_{l,+} \cdot \pi_{+,c}}]

Avec,

\pi_{l,c} proportion d’effectifs dans la cellule (l,c) du tableau croisé dynamique issu de X ^1, X ^2

\pi_{l,+} = \sum_{c = 1} ^{K_2} \pi_{l,c}

\pi_{+,c} = \sum_{l = 1} ^{K_1} \pi_{l,c}

Montrons que cette formule est équivalente à celle d’usage (qui l’est principalement par facilité de calcul informatique, le \chi ^2 de Pearson étant toujours implémenté quelque soit le logiciel utilisé contrairement au T de Tschuprow).

Soit N = \sum_{l,c} n_{l,c},

\sqrt{\frac{\phi ^2}{\sqrt{(K_1 - 1) \cdot (K_2)}}} = \sqrt{\frac{\chi ^2}{N \cdot \sqrt{(K_1 - 1) \cdot (K_2 - 1)}}} \Rightarrow \phi ^2 = \frac{\chi ^2}{N}

En partant de la formule utilisant le \chi ^2 de Pearson,

\chi ^2 = \sum_{l = 1} ^{K_1} \sum_{c = 1} ^{K_2} [\frac{(n_{l,c} - e_{l,c}) ^2}{e_{l,c}}] = \frac{N ^2}{N} \sum_{l,c} [\frac{(\frac{n_{l,c}}{N} - \frac{e_{l,c}}{N}) ^2}{\frac{e_{l,c}}{N}}]

Or, par définition nous avons \pi_{l,c} = \frac{n_{l,c}}{N}, par conséquent,

\chi ^2 = \frac{N ^2}{N} \sum_{l,c} [\frac{\frac{n_{l,c}}{N} - \frac{e_{l,c}}{N}) ^2}{\frac{e_{l,c}}{N}}] = N \cdot \sum_{l,c} [\frac{(\pi_{l,c} - \frac{e_{l,c}}{N}) ^2}{\frac{e_{l,c}}{N}}]

e_{l,c} effectif théorique dans le cadre d’une distribution aléatoire pour l’application du \chi ^2, peut se réécrire:

N \cdot p_{l,+} \cdot p_{+,c}

Avec p_{l,+} = \sum_{c = 1} ^{K_2} \frac{n_{l,c}}{N} et p_{+,c} = \sum_{l = 1} ^{K_1} \frac{n_{l,c}}{N}, nous avons alors,

\chi ^2 = N \cdot \sum_{l,c} [\frac{(\pi_{l,c} - \frac{N \cdot p_{l,+} \cdot p_{+,c}}{N}) ^2}{N \cdot p_{l,+} \cdot p{+,c}}] \Rightarrow \frac{\chi ^2}{N} = \sum_{l,c} [\frac{(\pi_{l,c} - p_{l,+} \cdot p_{+,c}) ^2}{p_{l,+} \cdot p_{+,c}}]

Reste à prouver que p_{l,+} = \pi_{l,+} et p_{+,c} = \pi_{+,c}, ce qui est le cas par définition de \pi et p puisque,

p_{l,+} = \sum_{c = 1} ^{K_2} \frac{n_{l,c}}{N} = \sum_{c = 1} ^{K_2} \pi_{l,c} = \pi_{l,+}

p_{+,c} = \sum_{l = 1} ^{K_1} \frac{n_{l,c}}{N} = \sum_{l = 1} ^{K_1} \pi_{l,c} = \pi_{+,c}

Les deux formules sont donc bien équivalentes.

\bullet Exemple:

Soit les deux variables X ^1, X ^2 ci-dessous,

addCi-dessous, l’histogramme des effectifs croisés de X ^1, X ^2 permet de voir que visuellement le groupe A de la variable  X ^1 correspond généralement au groupe B de la variable X ^2 tandis que le groupe B de la variable  X ^1 correspond aux groupes A et C de la variable  X ^2.

addNous trouvons ci-dessous la table des fréquences:

add3La première étape consiste à calculer la statistique de test du \chi ^2 de Pearson, cette dernière vaut:

\chi ^2 = 10.9524

L’application de la formule du T de Tschuprow, avec 2 modalités pour la variable X ^1 et 3 pour X ^2  nous donne:

T = \sqrt{\frac{10.9524}{\sqrt{20 \cdot \sqrt{2 \cdot 1}}}} = \frac{3.309441}{5.318297} = 0.6222746

Cette valeur est à comparer avec la valeur maximal possible:

T_{max} = (\frac{min (3,1)}{max (2,1)}) ^{\frac{1}{4}} = (\frac{1}{2}) ^{\frac{1}{4}} = 0.8408964

Nous pouvons en conclure que l’association entre X ^1, X ^2 est forte étant donné la valeur de T_{max}.

\bullet Application informatique:

Macro SAS:

%Macro T_Tschuprow(DATA=,V1=,V2=);

/* Ce programme calcule le T de Tschuprow. La structure attendue du jeu de données DATA est: 2
colonnes – 2 variables au format qualitatif. Il fournit en sortie la table contenant la valeur du T de Tschuprow */

/* 1) Calcul du Chi2 du Pearson */
proc freq data = &DATA.;
tables &V1.*&V2. / ChisQ;
output out = T_Tschuprow ChisQ; /* 2) Impression du résultat dans une table à part */
ods exclude all;
run;

/* 3) Récupération de la table et calcul du T de Tschuprow à partir du Chi2 de Pearson */
data T_Tschuprow (keep = T_Tschuprow);
set T_Tschuprow;
attrib T_Tschuprow label = « Statistique du T de Tschuprow » format=8.6 ;
T_Tschuprow = (sqrt((_PCHI_/N)/sqrt(DF_PCHI)));
Run;

%Mend;

Package et fonction R: https://cran.r-project.org/web/packages/DescTools/DescTools.pdf

\bullet Bibliographie: 

– Principles of the Mathematical Theory of Correlation d’Alexander Tschuprow

– Etudes des dépendances – variables qualitatives. Tableau de contingence et mesures d’association de Ricco Rakotomalala