Le coefficient corrélation et le test de Spearman

pcl_0001_0002_0_img0133

\bullet Présentation:

Publié en 1904 par Charles Spearman, le coefficient de corrélation de Spearman et son test associé sont des approches non paramétriques permettant de mesurer et tester si deux variables continues ou ordinales appariées X ^1, X ^2 sont corrélées

Notons que l’aspect apparié des deux variables est abusif, le coefficient s’applique aussi bien à des variables temporelles qu’à des variables non appariées. Il serait plus concret de parler de variables conjointes.

Enfin, il faut garder à l’esprit que corrélation et causalité ne sont pas intrinsèquement liées.

\bullet Le coefficient de corrélation et le test de nullité:

Hypothèse préliminaire: variables continues ou ordinales appariées.

Le coefficient de corrélation de Spearman: L’idée de la formule du coefficient de corrélation est d’imaginer une fonction monotone pour laquelle les couples de rangs (R ^1, R ^2) associés aux couples de points (X ^1, X ^2) seraient les plus proches possibles relativement à la variance des vecteurs des rangs. C’est sur ce principe que nous  trouvons la formule générale suivante:

\rho (R ^1,R ^2) = \frac{\sum_i (R_i ^1 - \overline{R ^1}) \cdot (R_i ^2 - \overline{R ^2})}{\sqrt{\sum_i (R_i ^1 - \overline{R ^1})^2 \cdot \sum_i (R_i ^2 - \overline{R ^2})^2}}

= \frac{S_{R ^1} + S_{R ^2} - \sum_i (R_i ^1 - R_i ^2)}{2 \sqrt{S_{R ^1} \cdot S_{R ^2}}}

Avec, en notant g_1, g_2 le nombre de groupes d’ex-aequos respectivement pour R ^1, R^2:

S_{R ^1} = \frac{n(n ^2 - 1) - \sum_{k_1 = 1} ^{g_1} (t_{k_1} ^3 - t_{k_1})}{12}

– S_{R ^2} = \frac{n(n ^2 - 1) - \sum_{k_2 = 1} ^{g_2} (t_{k_2} ^3 - t_{k_2})}{12}

Et t_k le nombre d’ex-aequos au sein du groupe k.

Le coefficient de corrélation de Spearman varie dans l’intervalle [-1,1]. De façon « universellement arbitraire », nous parlerons de:

– corrélation positive (comprendre que le vecteur des rangs associés à l’une des variables est fonction monotone croissante de celui de l’autre) si le coefficient est dans l’intervalle [0.7 , 1].

– de corrélation négative (comprendre que le vecteur des rangs associés à l’une des variables est fonction décroissante de celui de de l’autre) si le coefficient est dans l’intervalle [-1 , -0.7].

Plus | \rho | converge vers 1 et plus la corrélation entre les deux variables est de plus en plus forte, à contrario plus le coefficient tend vers 0 et plus les vecteurs sont non corrélés.

Le coefficient de corrélation de Spearman présente l’intérêt de pouvoir détecter les liaisons monotones contrairement à celui de Bravais-Pearson. La notion de liaison monotone est représentée dans la série de figure ci-dessous:

FIGURE67

Tendance du coefficient de corrélation: 

Etant donné qu’il s’agit de rang, nous pouvons écrire R ^2 comme une permutation p(.) particulière (du fait de la présence éventuelle d’ex-aequos) de R ^1. Ainsi, le coefficient de corrélation de Spearman converge vers |1| si le nombre de permutations pour que R ^1 = R ^2 tends vers 0 (cas triviale, R ^1 = R ^2 dans ce cas) ou n.

Ce dernier cas implique que \forall k \in [1, \cdots, n] R_i ^1 = R_{n - i + 1} ^2 (ou inversement) et \overline{R ^1} = \overline{R ^2}.

L’application de ce cas au dénominateur nous donne:

\sqrt{\sum_i (R_i ^1 - \overline{R ^1}) ^2 \times \sum_i (R_i ^2 - \overline{R ^2})} = \sqrt{\sum_i (R_i ^1 - \overline{R ^1}) ^2 \times \sum_i (R_{n - i + 1} ^1 - \overline{R ^1})}

= \sqrt{\sum_i (R_i ^1 - \overline{R ^1}) ^2 \times \sum_i (R_i ^1 - \overline{R ^1})}

= \sum_i (R_i ^1 - \overline{R ^1}) ^2

Pour le numérateur, dans notre cas de figure, il faut se rendre compte que:

R ^2 - \overline{R ^2} = R_{i - n + 1} ^1 - \overline{R ^1} = - (R_i ^1 - \overline{R ^1})

Donc, si le nombre de permutations tend vers n ou 0, nous voyons bien que le coefficient de corrélation tend respectivement vers -1,1.

Notons que le numérateur (soit la cohérence des fluctuations entre R ^1 et R ^2) ne peut jamais être plus grand que le dénominateur (soit l’estimation optimiste de ces fluctuations). Etant donné que la formule consiste en un ratio distance relative sur distance euclidienne, cela explique que le coefficient varie entre -1 et 1.

Le test de nullité du coefficient de corrélation de Spearman: A cette formule du coefficient de corrélation est associée la statistique du test de nullité:

\rho * = (n-2) ^{\frac{1}{2}} \cdot \frac{\vert \rho ({R ^1,R ^2}) \vert}{\sqrt{1 - \rho (R ^1, R ^2) ^2}}

Ce dernier suit une loi de Student à n-2 degrés de liberté, n désignant le nombre d’observations.

L’hypothèse H_0 est: « la pente formée entre les deux vecteurs de rangs associés aux variables est nulle / \rho * = 0« .

Ci-dessous la table de Student.

add

Concrètement la valeur réelle informative n’est pas le p-value du test de nullité du coefficient mais le coefficient de corrélation. Il peut arriver qu’un coefficient | \rho | > 0.7 n’ait pas un test associé significatif. En effet, ce n’est pas parce que la pente formée entre les deux échantillons n’est pas différente de 0 qu’il n’y a pas corrélation.

Tendance pour le rejet de H_0

Plus la statistique \rho * est grande et plus nous avons de chance de rejeter H_0. En effet, \rho variant dans [-1, 1], ce qui implique que lorsque \rho ^2 \longrightarrow 1 alors le dénominateur, \sqrt{1 - \rho ^2} tend vers 0 et donc t \longrightarrow + \infty.

Le coefficient de corrélation de Daniels:

Les coefficients de corrélation de Pearson, Kendall et Spearman peuvent être considérés comme des cas particuliers d’un même et unique formule appelée coefficient de corrélation de Daniels.

Pour toute paire d’observations i,j, nous notons a_{i,j}, b_{i,j} les indices respectivement associés aux variables X ^1, X ^2. La formule du coefficient de corrélation de Daniels est alors:

r_{(X ^1, X ^2)} ^D = \frac{\sum \sum a_{i,j} \cdot b_{i,j}}{\sqrt{(\sum \sum a_{i,j} ^2) \cdot (\sum \sum b_{i,j} ^2)}}

Il varie également dans l’intervalle [-1; +1] et les conclusions sont les mêmes que pour le coefficient de corrélation de Spearman.

\bullet Tendance lorsque n \longrightarrow \infty:

La formule du coefficient de corrélation est indépendante de n, par conséquent son calcul n’est pas influencé par l’augmentation de la taille de l’échantillon, ce qui en fait un indicateur très performant. Le test associé, quand à lui, dépend de n et devient de plus en plus obsolète au fur et à mesure que n grandit.

\bullet Annexe théorique:

Développement du coefficient de corrélation de Spearman:

Dans la cas où nous n’avons pas d’ex-aequos, il est possible de simplifier la formule de base du coefficient de Spearman. 

Finalement les rangs peuvent être vue comme des permutations de [1, \cdot, n], nous pouvons alors nous baser sur la loi de distribution uniforme discrète. Nous avons ainsi:

\overline{R ^1} = \overline{R ^2} = \frac{n + 1}{2}

var(R ^1) = var(R ^2) = \frac{n ^2 - 1}{2}

Par conséquent,

\rho (R ^1,R ^2) = \frac{\sum_i (R_i ^1 - \overline{R ^1}) \cdot (R_i ^2 - \overline{R ^2})}{\sqrt{\sum_i (R_i ^1 - \overline{R ^1})^2 \cdot \sum_i (R_i ^2 - \overline{R ^2})^2}} = \frac{cov(R ^1, R ^2)}{\sqrt{var(R ^1) \cdot var(R ^2)}}

Qui, par définition de la covariance, vaut:

\rho (R ^1,R ^2) = \frac{\overline{R ^1 \cdot R ^2} - \overline{R ^1} \cdot \overline{R ^2}}{\sqrt{\frac{n ^2 - 1}{12} \cdot \frac{n ^2 - 1}{12}}}

Remarquons que:

n \cdot \overline{R ^1 \cdot R ^2} = \sum_{i = 1} ^n R_i ^1 \cdot R_i ^2 = -\frac{1}{2} (\sum_i (R_i ^1 - R_i ^2) ^2 - \sum_i (R_i ^1) ^2 - \sum_i (R_i ^2) ^2)

Et comme \sum_i (R_i ^1) ^2 = \sum_i (R_i ^2) ^2 = \frac{n \cdot (n + 1) \cdot (2n + 1)}{6}, nous avons alors:

\rho = \frac{\frac{1}{n} \cdot (- \frac{1}{2} \sum_i (R_i ^1 - R_i ^2) + \frac{n(n + 1)(2n + 1)}{6}) - (\frac{n + 1}{2}) ^2}{\frac{n ^2 - 1}{12}} = \frac{12 \cdot 4 (n + 1) (2n + 1) - 6 (n + 1) ^2}{24 \cdot (n ^2 - 1)} - \frac{12 \cdot \frac{1}{2} \cdot \sum_i (R_i ^1 - R_i ^2)}{n \cdot (n ^2 - 1)}
 = 1 - \frac{6 \sum_i ( R_i ^1 - R_i ^2)}{n \cdot (n ^2 - 1)}

Démonstration du test de nullité du coefficient de corrélation:

Cette démonstration peut s’étendre aux tests associés aux coefficients de  corrélation de Pearson et Kendall. Nous poserons \rho * = r.

De manière général, la qualité du coefficient de corrélation b peut s’écrire:

t = \frac{b}{\sqrt{var(b)}}

En utilisant l’abréviation SCE = somme des carrés des écarts non expliqués et par définition de la variance, nous avons,

var(b) = \frac{SCE}{(n- 2) \cdot (n - 1) \cdot var(X^1)}

Via les abréviations SCT = somme des carrés des écarts totaux qui par définition vaut SCT= var(X ^2) \times (n - 1), et SCR =  somme des carrés des écarts expliqués qui par définition vaut SCR = r ^2 \times SCT, nous rappelons que:

SCE = SCT - SCR = SCT \times (1 - r ^2) = var(X ^2) \cdot (n - 1) \cdot (1 - r ^2)

Par conséquent,

var(b) = \frac{var(X ^2) \cdot (n - 1) \cdot (1 - r ^2)}{(n - 2) \cdot (n - 1) \cdot var(X ^1)} = \frac{var(X ^2) \cdot (1 - r ^2)}{(n- 2) \cdot var(X^1)}

Nous en déduisons donc que:

t = \frac{b}{\sqrt{\frac{var(X ^2) \cdot (1 - r^2)}{(n - 2) \cdot var(X ^1)}}} = \frac{b \times \sqrt{var(X ^1)} \times \sqrt{n - 2}}{\sqrt{var(X ^2)} \times \sqrt{1 - r ^2}}

Nous reconnaissons la formule du coefficient de corrélation de Pearson basée sur le calcul de la pente: r = \frac{\sqrt{var(X)}}{\sqrt{var(Y)}} \times b.

Nous retrouvons alors la formule du test de nullité du coefficient de corrélation: t = \sqrt{n-2} \times \frac{r}{\sqrt{1 - r ^2}}.

\bullet Exemple:

Soit les deux variables appariées X ^1, X^2 ci-dessous,

add

Ci-dessous le nuage de point associé au croisement des deux échantillons:

add

Nous passons donc à la forme rang des vecteurs X ^1 et X ^2, ci-dessous les deux échantillons transformés:

add

Notons l’absence d’ex-aequo ce qui implique \overline{(R)_1} = \overline{(R)_2} = 10.5. Le coefficient de corrélation de Spearman vaut:

\rho = \frac{-9.5 \times (-3.5) + \ldots + (-9.5) \times (-9.5)}{\sqrt{(-9.5) ^2 + \ldots + 9.5 ^2} \times \sqrt{(-9.5) ^2 + \ldots + 9.5 ^2}} = \frac{121}{\sqrt{665}} = 0.1819549

La statistique de test est:

\rho ^* = \sqrt{18} \cdot \frac{0.1819549}{\sqrt{1 - 0.1819549 ^2}} = 0.7850746

Et la p-value obtenue pour 18 degrés de liberté est 0.4426. On rejette alors H_0 et on en conclut que statistiquement le coefficient \rho n’est pas différent de 0.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_corr_sect029.htm

Package et fonction Rhttp://stat.ethz.ch/R-manual/R-patched/library/stats/html/cor.test.html

\bullet Bibliographie:

– The proof and measurement of association between two things de Charles Spearman

– Probabilité, analyse de données et Statistique de Gilbert Saporta

– Statistique, dictionnaire encyclopédique de Yadolah Dodge

– Data mining et statistique décisionnelle de Stéphane Tufféry