Le coefficient Q de Yule

add\bullet Présentation:

Publié en 1912 suite aux travaux de George Udny Yule, le coefficient Q de Yule est une mesure d’association permettant de quantifier la liaison entre deux variables qualitatives X ^1, X ^2 à K = 2 modalités chacune.

Il peut être vu comme un cas particulier du \gamma de Goodman et Kruskal.

\bullet Le test:

Hypothèse d’utilisation: Variables binaires.

Le Q de Yule connaît deux approches plus ou moins différentes. Le principe de la formule utilisée ne diffère pas d’une approche à l’autre cependant les éléments à mesurer ne sont pas les mêmes. Toutefois il existe une relation directe entre elles.

– La première approche consiste à considérer le couple (X ^1, X ^2) sous sa forme d’origine et se base sur l’étude des paires concordantes et discordantes.

Nous dirons que le couple (X_{i_1} ^1, X_{i_1} ^2) est concordant avec le couple (X_{i_2} ^1, X_{i_2} ^2) si la condition suivante est respectée:

\lbrace X_{i_1} ^1 > X_{i_2} ^1 et X_{i_1} ^2 > X_{i_2} ^2 \rbrace ou \lbrace X_{i_1} ^1 < X_{i_2} ^1 et X_{i_1} ^2 < X_{i_2} ^2 \rbrace

Nous dirons que le couple (X_{i_1} ^1, X_{i_1} ^2) est discordant avec le couple (X_{i_2} ^1, X_{i_2} ^2) si la condition suivante est respectée:

\lbrace X_{i_1} ^1 > X_{i_2} ^1 et X_{i_1} ^2 < X_{i_2} ^2 \rbrace ou \lbrace X_{i_1} ^1 < X_{i_2} ^1 et X_{i_1} ^2 > X_{i_2} ^2 \rbrace

Enfin, si le cas de figure étudié ne correspond ni au cas concordant ni au cas discordant alors nous parlerons de paire ex-aequo. Nous ne détaillerons pas la condition étant donné que ce cas-là n’est pas pris en compte directement dans la formule du Q de Yule.

La formule du coefficient Q de Yule dans ce cas de figure est alors:

Q = \frac{\# \lbrace \mbox{Paires concordantes} \rbrace - \# \lbrace \mbox{Paires disconcordantes} \rbrace}{\# \lbrace \mbox{Paires concordantes} \rbrace + \# \lbrace \mbox{Paires disconcordantes} \rbrace}

– La seconde approche consiste à construire le tableau des effectifs, issu du croisement de X ^1, X ^2, suivant:

addLa formule du coefficient Q de Yule dans ce cas de figure est alors:

Q = \frac{n_{1,1} \times n_{2,2} - n_{1,2} \times n_{2,1}}{n_{1,1} \times n_{2,2} + n_{1,2} \times n_{2,1}}

Les deux approches sont équivalentes et donnent donc le même résultat.

L’échelle de lecture du coefficient Q de Yule est la suivante:

addTendance du coefficient:

Plus le Q de Yule est proche de 1 et plus forte est l’intensité de la liaison entre X ^1, X ^2. Et inversement, plus le coefficient s’approche de 0, plus la liaison est faible.

Le résultat est assez immédiat tant la formule du Q de Yule est simple, c’est d’ailleurs l’un de ses principaux attraits. Ainsi, dans le cas où nous considérons l’approche au travers des paires concordantes et discordantes, nous avons,

Q \rightarrow 0 \Rightarrow \# \lbrace \mbox{Paires concordantes} \rbrace \rightarrow \# \lbrace \mbox{Paires disconcordantes} \rbrace

, soit que nous avons autant de paires concordantes que discordantes et donc nous sommes en présence d’une distribution aléatoire. Et analoguement, si nous considérons l’approche sur le tableau croisé des effectifs, nous avons,

Q \rightarrow 0 \Rightarrow n_{1,1} \cdot n_{2,2} \rightarrow n_{1,2} \cdot n_{2,1}

, soit un tableau d’éffectifs équivalent dans chacune des cellules et donc une distribution aléatoire.

Inversement, le Q de Yule tend vers 1 si pour les deux approches nous avons respectivement,

Q = \frac{\# \lbrace \mbox{Paires concordantes} \rbrace - \# \lbrace \mbox{Paires disconcordantes} \rbrace}{\# \lbrace \mbox{Paires concordantes} \rbrace + \# \lbrace \mbox{Paires disconcordantes} \rbrace} \rightarrow 1

\Rightarrow \# \lbrace \mbox{Paires concordantes} \rbrace - \# \lbrace \mbox{Paires disconcordantes} \rbrace \rightarrow \# \lbrace \mbox{Paires concordantes} \rbrace + \# \lbrace \mbox{Paires disconcordantes}

Pour la première approche cela revient à dire que nous avons soit exclusivement des paires concordantes soit des paires discordantes. Notons que la présence de paires discordantes ne veut pas dire qu’il n’y a pas relation entre X ^1, X ^2 mais que l’effet observé est en réalité l’inverse de l’effet attendu, d’où la mise à la valeur absolue du coefficient. Remarquons qu’un cas supplémentaire peut se présenter, celui où il n’y a que des ex-aequos, dés lors le rapport devient indéfini et donc le Q de Yule devient non exploitable.

Q = \frac{n_{1,1} \times n_{2,2} - n_{1,2} \times n_{2,1}}{n_{1,1} \times n_{2,2} + n_{1,2} \times n_{2,1}} \rightarrow 1

\Rightarrow n_{1,1} \times n_{2,2} - n_{1,2} \times n_{2,1} \rightarrow n_{1,1} \times n_{2,2} + n_{1,2} \times n_{2,1}

Pour la second approche, cela revient à dire que soit la diagnole n_{1,1}, n_{2,2} est non nulle et la diagonale n_{1,2}, n_{2,1} l’est soit l’inverse, d’où nouveau l’usage de la valeur absolue. Les deux situations impliquant une distribution non aléatoire des données. Enfin, notons qu’il faut se méfier du résultat obtenu par le Q de Yule si l’une des cellules du tableau est nulle, il peut alors donner une valeur de 1 par excés d’optimisme.

\bullet Annexe théorique:

Nous proposons ici de justifier que les deux approches décrites pour le Q de Yule sont équivalentes. Soit,

\frac{\# \lbrace \mbox{Paires concordantes} \rbrace - \# \lbrace \mbox{Paires disconcordantes} \rbrace}{\# \lbrace \mbox{Paires concordantes} \rbrace + \# \lbrace \mbox{Paires disconcordantes} \rbrace} = \frac{n_{1,1} \times n_{2,2} - n_{1,2} \times n_{2,1}}{n_{1,1} \times n_{2,2} + n_{1,2} \times n_{2,1}}

Partons de la version sur les paires concordantes et discordantes. Dans le cas concordant, nous avons, grâce aux propriétés du cardinal \# \lbrace . \rbrace:

\# \lbrace \mbox{Paires concordantes} \rbrace = \# \lbrace i_1, i_2; (x_{i_1} ^1 > x_{i_2} ^1, x_{i_1} ^2 > x_{i_2} ^2) \cup (x_{i_1} ^1 < x_{i_2} ^1, x_{i_1} ^2 < x_{i_2} ^2) \rbrace

= \# \lbrace i_1, i_2; x_{i_1} ^1 > x_{i_2} ^1, x_{i_1} ^2 > x_{i_2} ^2 \rbrace + \# \lbrace i_1, i_2; x_{i_1} ^1 < x_{i_2} ^1, x_{i_1} ^2 < x_{i_2} ^2 \rbrace - \# \lbrace \cap \rbrace

= \# \lbrace i_1, i_2; x_{i_1} ^1 = 1, x_{i_2} ^1 = 0, x_{i_1} ^2 = 1, x_{i_2} ^2 = 0 \rbrace + \# \lbrace i_1, i_2; x_{i_1} ^1 = 0, x_{i_2} ^1 = 1, x_{i_1} ^2 = 0, x_{i_2} ^2 = 1 \rbrace

, puisque X ^1, X ^2 sont deux variables binaires par hypothèse d’utilisation du Q de Yule et que \# \lbrace \cap \rbrace vaut logiquement 0. Nous pouvons également en déduire que:

\# \lbrace i_1, i_2; x_{i_1} ^1 = 1, x_{i_2} ^1 = 0, x_{i_1} ^2 = 1, x_{i_2} ^2 = 0 \rbrace = \# \lbrace i_1, i_2; x_{i_1} ^1 = 0, x_{i_2} ^1 = 1, x_{i_1} ^2 = 0 x_{i_2} ^2 = 1 \rbrace

, et donc,

\# \lbrace \mbox{Paires concordantes} \rbrace = 2 \cdot \# \lbrace i_1, i_2; x_{i_1} ^1 = 1, x_{i_2} ^1 = 0, x_{i_1} ^2 = 1, x_{i_2} ^2 = 0 \rbrace

= 2 \cdot \# \lbrace i_1, i_2; x_{i_1} ^1 = 1, x_{i_1} ^2= 1, x_{i_1} ^1 = 0, x_{i_2} ^2 = 0 \rbrace

= 2 \cdot \# \lbrace i_1; x_{i_1} ^1 = 1, x_{i_1} ^2 = 1 \rbrace \times \# \lbrace i_2; x_{i_2} ^1 = 0, x_{i_2} ^2 = 0 \rbrace

= 2 \cdot n_{1,1} \cdot n_{2,2}

Rappelons que les couples d’observations (i_1, i_2) sont indépendant contrairement aux couples (x_i ^1, x_i ^2) puisque c’est ce que nous cherchons à prouver au travers du coefficient Q de Yule.

Un raisonnement analogue conduit à:

\# \lbrace \mbox{Paires disconcordantes} \rbrace = 2 \cdot n_{1,2} \cdot n_{2,1}

Nous avons alors,

\frac{\# \lbrace \mbox{Paires concordantes} \rbrace - \# \lbrace \mbox{Paires disconcordantes} \rbrace}{\# \lbrace \mbox{Paires concordantes} \rbrace + \# \lbrace \mbox{Paires disconcordantes} \rbrace} = \frac{2 \cdot n_{1,1} \cdot n_{2,2} - 2 \cdot n_{1,2} \cdot n_{2,1}}{2 \cdot n_{1,1} \cdot n_{2,2} + 2 \cdot n_{1,2} \cdot n_{2,1}} = \frac{n_{1,1} \cdot n_{2,2} - n_{1,2} \cdot n_{2,1}}{n_{1,1} \cdot n_{2,2} + n_{1,2} \cdot n_{2,1}}

\bullet Exemple:

Soit les données suivantes:

addLa figure ci-dessous présente le croisement entre X ^1, X ^2:

addUne relation semble se dégager visuellement, avec un grand nombre de cas où X ^1 = 1, X ^2 = 1 et X ^1 = 2, X ^2 = 2. Utilisons le coefficient Q de Yule afin de mesurer la force de cette association selon les deux approches décrites.

– Commençons par la plus simple: la seconde qui consiste à étudier le tableau croisé des effectifs issu de X ^1, X ^2 et qui nous donne:

addNous avons alors:

| Q | = | \frac{6 \times 9 - 4 \times 1}{6 \times 9 + 4 \times 1} | = | \frac{50}{58} | = 0.862069

En reportant cette valeur à l’échelle de lecture du Q de Yule nous en déduisons qu’il existe une très forte relation entre X ^1, X ^2.

– Pour la première approche décrite et basée sur les paires concordantes et discordantes, nous irons un peu plus à l’essentiel du fait de la lourdeur des calculs qui lui sont associés.

Considérons donc la forme d’origine des données. Nous avons, par exemple pour le couple d’observation i_1 = 1, des concordances avec les couples d’observation i_2 \in \lbrace 12, \cdots, 20 \rbrace, aucune discordance et le reste des cas sont des ex-aequos. Pour le couple d’observation i_1 = 11, nous n’avons aucune concordance mais des discordances avec les couples d’observations i_2 \in \lbrace 4, 5 , 6, 7 \rbrace et le reste des cas qui sont des ex-aequos.

En reportant cette analyse sur l’ensemble des couples d’observation i_1 \in \lbrace 1, \cdots, 20 \rbrace par rapport à ceux d’observation i_2 \in \lbrace 1, \cdots, 20 \rbrace, nous trouvons 108 concordances, 8 discordances et 284 ex-aequos.

Nous avons alors:

| Q | = | \frac{108 - 8}{108 + 8} | = | \frac{100}{116} | = 0.862069

En reportant cette valeur à l’échelle de lecture nous en déduisons qu’il existe une très forte relation entre X ^1, X ^2.

\bullet Application informatique:

Procédure SAS: https://mystatpage.wordpress.com/2009/12/22/macro-yule-kappa/

Package et fonction R: http://personality-project.org/r/html/Yule.html

\bullet Bibliographie:

– Étude des dépendances, variables qualitatives, tableau de contingence et mesures d’association de Ricco Rakotomolala

– Statistiques appliquées à la psychologie – Tome 1 : Statistiques descriptives par Béatrice Beaufils

– L’encyclopédie du marketing: Commenté et illustrée par Jean-Marc Lehu