Le coefficient de corrélation et le test de Kendall

M_G_Kendall\bullet Présentation:

Publié en 1938 par Maurice George Kendall, le coefficient de corrélation de Kendall et son test associé sont des approches non paramétriques permettant de mesurer et tester si deux variables continues ou ordinales appariées X ^1, X ^2 sont corrélées.

Il est une alternative à la version de Spearman, permettant une meilleure gestion des ex-aequos dans la forme en rang des données mais étant également plus pessimiste.

Notons que l’aspect apparié des deux variables est abusif, le coefficient s’applique aussi bien à des variables temporelles qu’à des variables non appariées. Il serait plus concret de parler de variables conjointes.

Enfin, il faut garder à l’esprit que corrélation et causalité ne sont pas intrinsèquement liées.

\bullet Le coefficient de corrélation et le test de nullité:

Hypothèse préliminaire: variables continues ou ordinales appariées.

Le coefficient de corrélation de Kendall: l‘idée de la formule du coefficient de corrélation est d’imaginer une fonction monotone pour laquelle les couples de rangs (R ^1, R ^2) associés aux couples de points (X ^1, X ^2) seraient les plus proches possibles relativement à la variance des vecteurs rangs. C’est sur ce principe que l’on trouve alors la formule suivante pour n observations:

\tau (R ^1,R ^2) = \frac{2 \times ( \sum_i \sharp \lbrace (R_i ^1 > R_k ^2), \forall k \in \lbrace i, \ldots, n \rbrace \rbrace - \frac{n (n - 1)}{2})}{n (n - 1)}

= 2 \cdot \frac{\sharp \lbrace \mbox{Nombre de paires concordantes} \rbrace - \sharp \lbrace \mbox{Nombre de paires disconcordantes} \rbrace }{n \cdot (n - 1)}

Le coefficient de corrélation de Kendall varie dans l’intervalle [-1 , 1]. De façon « universellement arbitraire », nous parlerons de:

– corrélation positive (comprendre que le vecteur des rangs associés à l’une des variables est fonction monotone croissante de l’autre) si le coefficient est dans l’intervalle [0.7 , 1].

– de corrélation négative (comprendre que le vecteur des rangs associés à l’une des variables est fonction décroissante de l’autre) si le coefficient est dans l’intervalle [-1 , -0.7].

Plus | \tau | converge vers 1 et plus la corrélation entre les deux variables est de plus en plus forte, à contrario plus le coefficient tend vers 0 et plus les vecteurs sont non corrélés.

Le coefficient de corrélation de Kendall présente l’intérêt de pouvoir détecter les liaisons monotones contrairement à celui de Bravais-Pearson. La notion de liaison monotone est représentée dans la série de figure ci-dessous:

FIGURE67

La variante \tau_b:

Le cas classique ne prend pas en compte les ex-aequos et s’en trouve perturbé lorsqu’ils sont en grand nombre. Une variante au coefficient \tau de Kendall (de nom plus exacte \tau_a) palliant à ce problème:

\tau_b = \frac{N_c - N_d}{\sqrt{(\frac{n \cdot (n - 1)}{2} - n_1 *) \cdot (\frac{n \cdot (n - 1)}{2} - n_2 *)}}

Avec,

n_1 * = \frac{\sum_{k_1} ^{g_1} (t_{k_1} - 1) \cdot t_{k_1}}{2}, où g_1 représente le nombre de groupes d’ex-aequos et t_{k_1} le nombre d’ex-aequos du groupe k_1 de X ^1

n_2 * = \frac{\sum_{k_2} ^{g_2} (t_{k_2} - 1) \cdot t_{k_2}}{2}, où g_2 représente le nombre de groupes d’ex-aequos et t_{k_2} le nombre d’ex-aequos du groupe k_2de X ^2

La variante \tau_c:

Le calcul du nombre de paires concordantes – discordantes peut-être vue comme un tableau de taille \sharp \lbrace \mbox{Nb de rangs de } X ^1 \rbrace \times \sharp \lbrace \mbox{Nb de rangs de } X ^2 \rbrace. Pour cette visualisation des données et dans le cas de variables continues que nous aurions converties en rang, ce tableau serait carré tandis que le cas de variables ordinales peut amener à des tableaux rectangulaires. La variante \tau_c du \tau_a permet d’adapter le calcul du coefficient de corrélation de Kendall dans ce cas particulier. 

Sa formule est alors:

\tau_c = \frac{2 \cdot min(l, c) \cdot (N_c - N_d)}{min(l - 1, c - 1) \cdot n^2}

l, c représentent respectivement le nombre de lignes et de colonnes du tableau des paires concordantes – discordantes constituées.

Tendance du coefficient de corrélation:

Trivialement plus le nombre de paires concordantes est proche de celui de paries discordantes et plus le coefficient tend vers 0 puisque la formule simplifiée du coefficient de corrélation de Kendall se base sur:

= 2 \cdot \frac{\sharp \lbrace \mbox{Nombre de paires concordantes} \rbrace - \sharp \lbrace \mbox{Nombre de paires disconcordantes} \rbrace }{n \cdot (n - 1)}

Soit la différence, au numérateur entre ces deux taux. Inversement, si N_d \rightarrow 0, c’est-à-dire que nous avons très peu voir aucun couple discordant, alors N_c \rightarrow \frac{n \cdot (n - 1)}{2}, c’est-à-dire quasiment ou tous les couples possibles concordent, alors le coefficient tend vers 1 car le numérateur est tend vers le dénominateur. Le cas où le coefficient tend vers -1 étant une analogie.

Le test de nullité du coefficient de corrélation de Kendall: A cette formule  du coefficient de corrélation est associée la statistique du test de nullité du coefficient de corrélation:

z =\frac{\tau (R ^1,R ^2)}{\sqrt{\frac{2 \cdot (2 \cdot n + 5)}{9 \cdot n \cdot (n - 1)}}}

Ce dernier suit une loi normale centrée-réduite. L’hypothèse H_0 est:  » la pente formée entre les deux vecteurs de rangs associés aux variables est nulle / z = 0 « .

Ci-dessous la table de la loi normale.

add10Concrètement la réelle valeur informative n’est pas le p-value du test de nullité du coefficient mais le coefficient de corrélation. Il peut arriver qu’un coefficient | \tau | > 0.7 n’ait pas un test associé significatif. En effet, ce n’est pas parce que la pente formée entre les deux échantillons n’est pas différente de 0 qu’il n’y a pas corrélation.

Tendance pour le rejet de H_0:

Le test se base essentiellement sur le coefficient de corrélation de Kendall. Plus la statistique s’éloigne de 0 et plus nous avons de chance de rejeter H_0.

Le coefficient de corrélation de Daniels:

Les coefficients de corrélation de Pearson, Kendall et Spearman peuvent être considérés comme des cas particuliers d’un même et unique formule appelée coefficient de corrélation de Daniels.

Pour toute paire d’observations i,j, nous notons a_{i,j}, b_{i,j} les indices respectivement associés aux variables X ^1, X ^2. La formule du coefficient de corrélation de Daniels est alors:

r_{(X ^1, X ^2)} ^D = \frac{\sum \sum a_{i,j} \cdot b_{i,j}}{\sqrt{(\sum \sum a_{i,j} ^2) \cdot (\sum \sum b_{i,j} ^2)}}

Il varie également dans l’intervalle [-1; +1] et les conclusions sont les mêmes que pour le coefficient de corrélation de Kendall.

\bullet Tendance lorsque n \longrightarrow \infty:

La formule du coefficient de corrélation est indépendante de n mais est bornée par n et devient de plus en plus obsolète au fur et à mesure que n grandit.

\bullet Annexe théorique:

Nous présentons la démonstration de la relation entre le tau_a de Kendall et le \rho de Spearman.

Nous allons devoir insérer la notion de Copule. Une copule est une fonction de répartition C: I ^p \longrightarrow I = [0,1] et de marges uniformes. Il s’agit d’un outil probabiliste, régulièrement utilisé en statistique financière, permettant de caractériser la loi de distribution jointe de p variables aléatoires tout en s’affranchissant de leur loi marginale.

Pour U, V uniformément distribuées sur I, nous pouvons alors définir la copule du \tau de Kendall:

\tau = 1 - 4 \cdot \int_I \int_I \frac{\partial C}{\partial u} (u,v) \cdot \frac{\partial C}{\partial v} (u,v) du \cdot dv

En effet, le \tau peut se réécrire, pour deux couples de variables aléatoires continues identiquement et indépendamment distribués (X_1, X_2), (Y_1, Y_2) de distributions conjointes H_1, H_2 et de fonctions marginales u = F, v = G:

\tau = P[(X_1 - X_2) \cdot (Y_1 - Y_2) > 0] - P[(X_1 - X_2) \cdot (Y_1 - Y_2) < 0]

= 2 \times P[(X_1 - X_2) \cdot (Y_1 - Y_2) > 0] - 1, par contraposée

= 2 \times (P(X_1 < X_2, Y_1 < Y_2) + P(X_1 > X_2, Y_1 > Y_2)) - 1

Nous avons que,

P(X_1 < X_2, Y_1 < Y_2) = \int_I \int_I P(X_2 < x, Y < y) d C_1 (F(x),G(y))

= \int_I \int_I C_2(F(x),G(y)) d C_1 (F(x),G(y))

= \int_I \int_I C_2(u,v) C_1 (u,v)

C_1, C_2 sont les copules correspondantes aux distributions de H_1, H_2.

De manière tout à fait analogue nous avons:

P(X_1 > X_2, Y_1 > Y_2) = \int_I \int_I P(X_2 > x, Y > y) d C_1 (F(x),G(y))

= \int_I \int_I (1 - F(x) - G(y) + C_2 (u,v)) d C_1 (u,v)

= \int_I \int_I (1 - u - v + C_2 (u,v)) C_1 (u,v)

= 1 - \frac{1}{2} - \frac{1}{2} + \int_I \int_I C_2(u,v) C_1 (u,v), car u, v suivent une loi uniforme sur I

Ainsi nous avons que (P(X_1 > X_2, Y_1 > Y_2) = (P(X_1 < X_2, Y_1 < Y_2) et donc,

\tau = 4 \times (P(X_1 > X_2, Y_1 > Y_2) - 1 = 4 \times \int_I \int_I C_2 (u,v) C_1 (u,v) - 1

Un procédé analogue nous permet de déterminer la version du \rho de Spearman:

\rho = 3 - 6 \int_I \int_I (u \cdot \frac{\partial C}{\partial u} (u,v) + v \cdot \frac{\partial C}{\partial v} (u,v)) du \cdot dv

Maintenant que nous avons défini les versions de \tau et \rho faisant intervenir la notion de copule, nous allons pouvoir nous en servir afin de déterminer un objet borné et ainsi démontrer la relation entre les indices de corrélation de Kendall et Spearman.

Soit,

(u - \frac{\partial C}{\partial u}) \cdot (v - \frac{\partial C}{\partial v}) = u \cdot v - u \cdot \frac{\partial C}{\partial u} - v \cdot \frac{\partial C}{\partial v} + \frac{\partial C}{\partial u} \cdot \frac{\partial C}{\partial v}

Le passage à l’intégrale permet d’écrire,

\int_I \int_I (u - \frac{\partial C}{\partial u}) \cdot (v - \frac{\partial C}{\partial v}) du dv = \int_I \int_I u \cdot v du dv - \int_I \int_I (u \cdot \frac{\partial C}{\partial u} + \int_I \int_I v \cdot \frac{\partial C}{\partial v}) du dv + \int_I \int_I \frac{\partial C}{\partial u} \cdot \frac{\partial C}{\partial v} du dv

Or,

\int_I \int_I u \cdot v \cdot du dv = \frac{1}{4}, car U, V suivent une loi uniforme

\int_I \int_I (u \cdot \frac{\partial C}{\partial u} + \int_I \int_I v \cdot \frac{\partial C}{\partial v}) du dv = \frac{3 - \rho}{6}

\int_I \int_I \frac{\partial C}{\partial u} \cdot \frac{\partial C}{\partial v} du dv = \frac{1 - \tau}{4}

Ainsi,

\int_I \int_I (u - \frac{\partial C}{\partial u}) \cdot (v - \frac{\partial C}{\partial v}) du dv = \frac{1}{12} \cdot (2 \rho - 3 \tau)

Nous pouvons simplifier la fraction \frac{1}{12} puisque (2 \rho - 3 \tau) varie dans [-1; 1, d’où:

-1 \leq 3 \tau - 2 \rho \geq 1

\bullet Exemple:

Soit les deux variables appariées X ^1, X^2 ci-dessous,

add

Ci-dessous le nuage de point associé au croisement des deux échantillons:

add

Nous passons donc à la forme rang des vecteurs X ^1 et X ^2, ci-dessous les deux échantillons transformés:

addDécomposons la formule de calcul de la statistique de test. Tout d’abord calculons le terme:

(\square) = \sum_i \sharp \lbrace R_i ^1 > R_k ^2, \forall k \in \lbrace i, \ldots, n \rbrace \rbrace

Nous avons alors:

(\square) = 13+11+10+5+6+7+7+7+6+5+8+7+5+1+2+2+2+2+1+0 = 107

Le numérateur est alors calculable et nous avons:

2 \times (\square) - \frac{20 \times 19}{2} = 2 \times 107 - \frac{20 \times 19}{2} = 24

Nous pouvons calculer le coefficient de corrélation de Kendal:

\tau = \frac{2 \times 24}{20 \times 19} = 0.1263158

Cette valeur permet de conclure que la corrélation entre X ^1, X ^2 est faible. Reste à calculer la statistique de test associée, nous avons donc:

z = \frac{0.1263158}{\sqrt{\frac{2 \times ( 2 \times 20 + 5)}{9 \times 20 \times (20 - 1)}}} = 0.7786629

A partir de cette statistique de test et de la table de la loi normale nous pouvons calculer la p-value z qui vaut: 0.4362. Nous rejetons alors H_0 et nous en concluons que statistiquement le coefficient \tau n’est pas différent de 0.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_corr_sect029.htm

Package et fonction Rhttp://stat.ethz.ch/R-manual/R-patched/library/stats/html/cor.test.html

\bullet Bibliographie:

– A New Measure of Rank Correlation de Maurice Kendall

– Data mining et statistique décisionnelle de Stéphane Tufféry

– Statistiques sociales de William Fox

– On the relationship between Spearman’s rho and Kendall’s tau for pairs of continuous random variables de Gregory Fredricks et Roger Nelsen

– Le site http://www.bf.refer.org/barro/chap3.html

– Probabilité, analyse des données et Statistique de Gilbert Saporta