Le V de Cramér

add\bullet Présentation:

Publié en 1946 par Harald Cramér , le V de Cramér est une mesure de l’association entre deux variables qualitatives (X ^1, X ^2) à K \geq 2 modalités.

Il est considéré comme étant une valeur plus fiable que le test du \chi ^2 de Pearson et est la mesure d’association entre deux variables qualitatives la plus prisée par les statisticiens. En effet, à l’instar du T de Tschuprow, il représente une alternative au test du \chi ^2 de Pearson en permettant de s’affranchir de l’influence néfaste des grands échantillons.

\bullet La mesure d’association:

Hypothèse préliminaire: variables qualitatives distinctes à K \geq 2 modalités

La mesure d’association: Le V de Cramér est basé sur la statistique de test du \chi ^2 de Pearson. Sa formule est:

V = \sqrt{\frac{\chi ^2}{N \cdot min(C - 1,L - 1)}}

Où:

N le nombre total d’observations

C le nombre de colonnes du tableau croisé dynamique issu de X ^1, X ^2 (ou plus simplement le nombre de modalités de X ^1)

L le nombre de lignes du tableau croisé dynamique issu de X ^1, X ^2 (ou plus simplement le nombre de modalités de X ^2

A noter que la valeur N \cdot min (C - 1, L- 1) est également notée \chi_{max} ^2 et le réprésente la valeure maximale que puisse prendre la statistique de test du \chi ^2 de Pearson.

Le V de Cramér peut également s’écrire en fonction du coefficient \Phi au travers de la formule:

V = \sqrt{\frac{\Phi ^2}{min (C - 1, L - 1)}}

Le V de Cramér varie dans l’intervalle [0, 1]. Le tableau ci-dessous présente les intervalles d’interprétation (source: site de l’université de Montreal):

add

 

Variation de la mesure d’association:

Deux cas se présente. Celui où le V de Cramér est égal à 0 ou 1.

Dans le premier cas,

V = 0 \Rightarrow \sqrt{\frac{\chi ^2}{N \cdot min (C-1, L-1)}} = 0

\Rightarrow \chi ^2 = 0

\Rightarrow \sum_{l = 1} ^{L} \sum_{c = 1} ^{C} \frac{(n_{l,c} - e_{l,c}) ^2}{e_{l,c}} = 0

\Rightarrow \forall l,c nous avons n_{l_,c} - e_{l,c} = 0

\Rightarrow n_{l,c} = e_{l,c}, soit une distribution aléatoire.

Dans le second cas,

V = 1 \Rightarrow \sqrt{\frac{\chi ^2}{N \cdot min (C-1, L-1)}} = 1 \Rightarrow \chi ^2 = N \cdot min (C-1, L-1) = \chi_{max} ^2

Soit la valeur maximale que peut prendre la statistique de test du \chi ^2 de Pearson.

Le V de Cramér consiste finalement au rapport entre la valeur de la statistique de test du \chi ^2 de Pearson, issue du jeu de données, sur sa valeur maximale possible. C’est là la raison pour laquelle il représente un indicateur plus fiable que le test du \chi ^2 de ,qui est très sensible à la taille d’échantillon et à la structure par modalités, puisqu’il va intégrer cette effectif et le nombre de modalités par l’intermédiaire du dénominateur.

\bullet Annexe théorique:

Nous proposons ici de démontrer que la valeur maximale du \chi ^2 de Pearson, notée \chi_{max} ^2, vaut N \cdot min (C-1, L-1).

Rappelons que la formule de la statistique de test du \chi ^2 de Pearson est:

\chi ^2 = \sum_{l = 1} ^L \sum_{c = 1} ^C \frac{(n_{l,c} - e_{l,c}) ^2}{e_{l,c}} = \sum_{l = 1} ^L \sum_{c = 1} ^C \frac{(n_{l,c} - \frac{n_{l,+} \cdot n_{+,c}}{N}) ^2}{\frac{n_{l,+} \cdot n_{+,c}}{N}}

Avec N effectif total, n_{l,c} effectif de la celulle (l,c) du tableau croisé dynamique issu des variables (X ^1, X ^2), n_{l,+} = \sum_{c = 1} ^C n_{l,c} et n_{+,c} = \sum_{l = 1} ^L n_{l,c}.

Développons le carré,

\chi ^2 = \sum_{l = 1} ^L \sum_{c = 1} ^C [\frac{n_{l,c} ^2}{\frac{n_{l,+} \cdot n_{+,c}}{N}} - 2 n_{l,c} \cdot \frac{\frac{n_{l,c}}{N}}{\frac{n_{l,c}}{N}} + \frac{(\frac{n_{l,+} \cdot n_{+,c}}{N}) ^2}{\frac{n_{l,+} \cdot n_{+,c}}{N}}]

 = \sum_{l = 1} ^L \sum_{c = 1} ^C [N \cdot \frac{n_{l,c} ^2}{n{l,+} \cdot n_{+,c}} - 2 n_{l,c} + \frac{n_{l,+} \cdot n_{+,c}}{N}]

= N \sum_{l = 1} ^L \sum_{c = 1} ^C [\frac{n_{l,c} ^2}{n_{l,+} \cdot n_{+,c}}] - \sum_{l = 1} ^L \sum_{c = 1} ^C [2 n_{l,c} - \frac{n_{l,+} \cdot n_{+,c}}{N}]

Or,

2 \sum_{l = 1} ^L \sum_{c = 1} ^C n_{l,c} = 2 N

\sum_{l = 1} ^L \sum_{c = 1} ^C \frac{n_{l,+} \cdot n_{+,c}}{N} = \frac{1}{N} \sum_{l = 1} ^L \sum_{c = 1} ^C n_{l,+} \cdot n_{+,c}

= \frac{1}{N} \sum_{l = 1} ^L n_{l,+} \sum_{c = 1} ^C n_{+,c}

= \frac{1}{N} \sum_{l = 1} ^L n_{l,+} \cdot N

= \sum_{l = 1} ^L n_{l,+}

= N

Par conséquent,

\sum_{l = 1} ^L \sum_{c = 1} ^C [2 n_{l,c} - \frac{n_{l,+} \cdot n_{+,c}}{N}] = 2N - N = N

Nous avons donc,

\chi ^2 = N (\sum_{l = 1} ^L \sum_{c = 1} ^C \frac{n_{l,c} ^2}{n_{l,+} \cdot n_{+,c}}) - N = N \cdot [\sum_{l = 1} ^L \sum_{c = 1} ^C (\frac{n_{l,c} ^2}{n_{l,+} \cdot n_{+,c}}) - 1]

Nous retrouvons donc la structure de base de la borne supérieure de la statistique de test du \chi ^2 de Pearson. Reste à montrer que \sum_{l = 1} ^L \sum_{c = 1} ^C \frac{n_{l,c} ^2}{n_{l,+} \cdot n_{+,c}} = min (L, C).

Remarquons que,

\frac{n_{l,c}}{n_{l,+}} \leq 1

\frac{n_{l,c}}{n_{+,c}} \leq 1

En effet, la cellule n_{l,c} est, respectivement, forcément inférieure aux sommes des cellules n_{l,+} et n_{+,c} pour c et l, respectivement, fixé. Nous avons alors,

\frac{n_{l,c}}{n_{+,c}} \leq 1 \Rightarrow \frac{n_{l,c} ^2}{n_{+,c}} \leq n_{l,c} \Rightarrow \frac{n_{l,c} ^2}{n_{l,+} \cdot n_{+,c}} \leq \frac{n_{l,c}}{n_{l,+}}

\frac{n_{l,c}}{n_{l,+}} \leq 1 \Rightarrow \frac{n_{l,c} ^2}{n_{l,+}} \leq n_{l,c} \Rightarrow \frac{n_{l,c} ^2}{n_{l,+} \cdot n_{+,c}} \leq \frac{n_{l,c}}{n_{+,c}}

Ce qui implique,

\sum_{l = 1} ^L \sum_{c = 1} ^C \frac{n_{l,c} ^2}{n_{l,+} \cdot n_{+,c}} \leq \sum_{l = 1} ^L \sum_{c = 1} ^C \frac{n_{l,c}}{n_{l,+}} \leq \sum_{l = 1} ^L \frac{\sum_{c = 1} ^C n_{l,c}}{n_{l,+}} = \sum_{l = 1} ^L \frac{n_{l,+}}{n_{l,+}} = L

\sum_{l = 1} ^L \sum_{c = 1} ^C \frac{n_{l,c} ^2}{n_{l,+} \cdot n_{+,c}} \leq \sum_{l = 1} ^L \sum_{c = 1} ^C \frac{n_{l,c}}{n_{+,c}} \leq \sum_{c = 1} ^C \frac{\sum_{l = 1} ^L n_{l,c}}{n_{+,c}} = \sum_{c = 1} ^C \frac{n_{+,c}}{n_{+,c}} = C

Donc nous avons bien que,

\chi ^2 \leq \chi_{max} ^2 = N \cdot [min(C,L) - 1] = N \cdot min(C - 1, L - 1)

 \bullet Exemple:

Soit les deux variables X ^1, X ^2 ci-dessous,

addCi-dessous, l’histogramme des effectifs croisés de X ^1, X ^2 permet de voir que visuellement le groupe A de la variable  X ^1 correspond généralement au groupe B de la variable X ^2 tandis que le groupe B de la variable  X ^1 correspond aux groupes A et C de la variable  X ^2.

addNous trouvons ci-dessous la table des effectifs croisés:

add3Commençons par calculer la statistique de test du \chi ^2 de Pearson. Nous obtenons \chi ^2 = 10.95238.

Nous avons alors,

V = \sqrt{\frac{10.95238}{20 * min(2 - 1,3 - 1)}} = \sqrt{\frac{10.95238}{20}} = \sqrt{0.547619} = 0.7400128

En reportant cette valeur au tableau résumant la force de l’association en fonction de l’intervalle, nous concluons en une forte liaison entre X ^1 et X ^2.

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_freq_sect003.htm

Package et fonction R: http://www.inside-r.org/node/228917

\bullet Bibliographie:

– Mathematical Methods of Statistics de Harald Cramér

– Probabilités, analyse des données et statistique de Gilbert Saporta

– Data Mining et statistique décisionnelle, l’intelligence des données de Stéphane Tufféry

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s