Le coefficient W de concordance de Kendall

M_G_Kendall

\bullet Présentation:

Publié en 1939 suite aux travaux de Maurice George Kendall, le coefficient W de concordance de Kendall est une mesure non paramétrique de la liaison entre plusieurs variables continues appariées X ^1, \cdots, X ^T.

Nous retrouvons régulièrement le problème posé sous une autre forme, fournir une mesure de la concordance inter-observateurs, les temps t \in [1, T] deviennent alors des juges fournissant une évaluation pour les n observations. L’idée étant de mesurer à quel point les évaluations des juges concordent entre elles.

\bullet Le coefficient:

Hypothèse préliminaire: Variables continues appariées.

En définissant R ^1, \cdots, R ^T les vecteurs des rangs associés respectivement à X ^1, \cdots, X ^T, la formule du coefficient W de concordance de Kendall est:

W = \frac{12 S}{T ^2 (n ^3 - n)}

Avec,

S = \sum_{i = 1} ^n (R_i - \overline{R}) ^2

, où R_i = \sum_{t= 1} ^T R_i ^t et \overline{R} = \frac{1}{n} \sum_{i = 1} ^n R_i

Le coefficient W de concordance de Kendall varie entre 0 (discordance parfaite) et 1 (concordance parfaite).

De plus, il peut être relié à la statistique de test de l’ANOVA de Friedman au travers de l’égalité,

\chi_r ^2 = (T (n - 1) W

, où encore au coefficient de corrélation des rangs de Spearman par l’égalité,

\rho(R ^1, R ^2) = \frac{T W - 1}{T - 1}

Gestion des ex-aequo:

Le coefficient W de concordance de Kendall se basant sur les rangs de X ^1, \dots, X ^T, c’est tout naturellement qu’une variante doit être appréhendée afin de s’adapter à la très probable présence de valeurs ex-aequos. L’idée est de remplacer leur rang par la moyenne des rangs hypothétiques s’ils étaient absents. Dés lors la formule devient,

W ^* = \frac{12 S}{T ^2 (n ^3 - n) - T \sum_{t = 1} ^T  (e_t ^3 - e_t)}

, où e_t représente le nombre d’ex-aequo au t-ème classement.

Variation du coefficient W de concordance de Kendall:

En rappelant l’intervalle de variation de W, nous avons,

0 \leq W \leq 1

\Rightarrow 0 \leq \frac{12 S}{T ^2 (n ^3 - n)} \leq 1

\Rightarrow 0 \leq 12 S \leq T ^2 (n ^3 - n)

\Rightarrow 0 \leq S \leq \frac{T ^2 (n ^3 - n)}{12}

\Rightarrow 0 \leq \sum_{i = 1} ^n (R_i - \overline{R}) ^2 \leq \frac{T ^2 (n ^3 - n)}{12}

Deux cas de figure se présentent à nous. Le premier,

\sum_{i = 1} ^n (R_i - \overline{R}) ^2 = 0 \Rightarrow \forall i \in [1, n], R_i = \overline{R}

, soit que pour chaque observation la somme des rangs donnés sur les différents temps t coïncide avec la moyenne de ces rangs. Un tel cas arrive si nous sommes en présence d’une distribution purement aléatoire pour chacun des temps t et donc qu’il y a discordance.

Le second cas,

\sum_{i = 1} ^n (R_i - \overline{R}) ^2 = \frac{T ^2 (n ^3 - n)}{12}

, qui est logiquement atteint si pour chaque temps t \in [1, T] et observations i \in [1,n], le rang attribué est le même. Cette situation représentant en réalité une concordance parfaite entre chacun des temps.

\bullet Annexe théorique:

Nous proposons ici de démontrons que si nous avons concordance parfaite entre les différents temps t \in [1,T], alors \sum_{i = 1} ^n (R_i - \overline{R}) ^2 = \frac{T ^2 (n ^3 - n)}{12}.

Ce cas peut se traduire de la manière suivante:  pour chaque temps et observations, les rangs associés sont les mêmes. Si nous nous reportons à la formule du coefficient de concordance W de Kendall, cela revient à dire que,

\forall i \in [1,n], R_i = T \cdot i \Rightarrow \overline{R} = \frac{1}{n} \sum_{i = 1} ^n R_i

= \frac{1}{n} \sum_{i = 1} ^n T \cdot i

= \frac{T}{n} \sum_{i = 1} ^n i

= \frac{T}{n} \frac{n (n + 1)}{2}

= \frac{T (n + 1)}{2}

Évidemment, il s’agit d’un abus de langage car la concordance entre les différents temps peut être indépendante du numéro d’observation. Mais étant donné la construction du coefficient, finalement cela revient au même.

Nous avons donc,

S = \sum_{i = 1} ^n (R_i - \overline{R}) ^2

= \sum_{i = 1} ^n (T \cdot i - \frac{T (n + 1)}{2}) ^2

= T ^2 \sum_{i = 1} ^n (i - \frac{n + 1}{2}) ^2

= T ^2 [\sum_{i = 1} ^n i ^2 - \frac{2 (n + 1)}{2} \sum_{i = 1} ^n i + \sum_{i = 1} ^n (\frac{(n + 1)}{2}) ^2]

= T ^2 [\frac{(2 n + 1) (n + 1) n}{6} - (n + 1) \frac{n (n + 1)}{2} + n \frac{(n + 1) ^2}{4}]

= \frac{T ^2}{12} [2 (n + 1) (n + 1) n - 6 n (n + 1) ^2 + 3 n (n + 1) ^2]

=\frac{T ^2}{12} [4 n ^3 + 6 n ^2 + 2 n - 3 n ^2 - 6 n ^2 - 3 n]

= \frac{T ^2}{12} (n ^3 - n)

\bullet Exemple:

Soit l’échantillon ci-dessous:

add1.png

Nous avons 20 observations, mesurées à cinq temps différents.

L’Analyse en composantes principales (ACP) sur les variables X ^1, X ^2, X ^3, X ^4, X ^5 permet de voir la tendance globale de la concordance entre les cinq différents temps.

add3.png

Si nous étions en situation de concordance parfaite alors nous devrions avoir une forte multicolinéarité entre X ^1, X ^2, X ^3, X ^4, X ^5 et qui serait traduite sur notre ACP par le fait qu’elles soient toutes localisées sur le même secteur du cercle de corrélation.

Dans notre exemple nous voyons que ce n’est pas le cas, la figure semble présenter une corrélation modérée entre les temps 2, 3, 5 et une autre entre les temps 1, 4. L’Angle formé par ces deux groupes tend à montrer qu’ils sont indépendants. Quantifions cette concordance.

Dans un premier temps, nous transformons notre matrice de données en matrice de rangs en ligne,

add2

Maintenant procédons à la détermination du dénominateur et du numérateur du coefficient W de concordance de Kendall.

Nous avons donc au dénominateur,

5 ^2 \times (20 ^3 - 20) = 25 \times (8 000 - 20) = 25 \times 7980 = 199500

Pour le numérateur, dans un premier temps,

R = (R_1, \cdots, R_{20})

= (\sum_{t = 1} ^5 R_1 ^t, \cdots, \sum_{t = 1} ^5 R_{20} ^t)

= (1 + 12 + 7 + 1 + 7, \cdots, 20 + 18 + 20 + 9 +20)

= (28, \cdots, 87)

\Rightarrow \overline{R} = \frac{1}{20} \sum_{i = 1} ^{20} R_i = \frac{28 + \cdots 87}{20} = \frac{1050}{20} = 52.5

Dans un second temps,

S = \sum_{i = 1} ^{20} (R_i - \overline{R}) ^2

= (28 - 52.5) ^2 + \cdots  (87 - 52.5) ^2

= (-24.5) ^2 + \cdots + 34.5 ^2

= 600.25 + \cdots + 1190.25

= 6115

Par conséquent,

W = \frac{12 \times 6115}{199500} = \frac{73380}{199500} = 0.3678195

Le score W obtenu nous permet de conclure quand à l’absence de concordance entre les différents temps de X.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/kb/25/006.html

Package et fonction R: http://www.inside-r.org/packages/cran/concord/docs/kendall.w

\bullet Bibliographie: 

– The Problem of m Rankings de Maurice Kendall et B. Babington Smith

– Probabilité, analyse des données et statistique de Gilbert Saporta