Le coefficient corrélation et le test de Spearman

pcl_0001_0002_0_img0133

Charles Spearman

\bullet Historique :

\begin{tabular}{|l|c|c|} \hline Bloc & 22/05/2013-V1 & 07/06/2020-V2 \\ \hline Historique &  & Cr\'eation \\ \hline Sommaire &  & Cr\'eation \\ \hline Pr\'esentation & Cr\'eation & MAJ \\ \hline Le Coeff... de corr... et le test de... & Cr\'eation & Restreint au Coeff... de corr... de Spearman \\ \hline Le test de nul... du Coeff... &  & Cr\'eation \\ \hline Tendance lorsque... & Cr\'eation & MAJ \\ \hline Annexe th\'eo... & Cr\'eation & MAJ \\ \hline Exemple & Cr\'eation & MAJ \\ \hline Appli... info... & Cr\'eation & Devient Appli... sous R \\ \hline Appli... sous SAS &  & Cr\'eation \\ \hline Bibliographie & Cr\'eation & MAJ \\ \hline \end{tabular}

\bullet Sommaire :

  • Présentation
  • Le coefficient de corrélation de Spearman
    • Evolution du coefficient de corrélation
    • Le coefficient de corrélation de Daniels
  • Le test de nullité du coefficient
    • La table de la loi de Student
    • Calcul de la p-valeur exacte
    • Conditions pour le rejet de H_0
  • Tendance lorsque n \rightarrow + \infty
  • Annexe théorique
    • Démonstration du coefficient de corrélation de Spearman
    • Démonstration du test de nullité du coefficient de corrélation
  • Exemple
  • Application sous R
  • Application sous SAS
  • Bibliographie

\bullet Présentation :

Publié en 1904 par Charles Spearman, le coefficient de corrélation de Spearman et son test associé sont des approches non paramétriques permettant de mesurer et tester si deux variables continues ou ordinales appariées X ^1, X ^2 sont corrélées.

On notera que l’aspect apparié des deux variables est abusif, le coefficient s’applique aussi bien à des variables temporelles qu’à des variables non appariées. Il serait plus concret de parler de variables conjointes.

Pour des variables continues, on optera pour le coefficient de corrélation de Spearman au détriment de celui de Pearson lorsque l’on est en présence d’un échantillon de petite taille.

Enfin, il faut garder à l’esprit que corrélation et causalité ne sont pas intrinsèquement liées. En effet, deux variables peuvent être corrélées sans pour autant que la variabilité de l’une explique celle de l’autre. On a alors recours au coefficient de corrélation partielle dans ce cas afin de déterminer si la relation qui unie deux variables ne provient pas d’un troisième variable cachée.

\bullet Le coefficient de corrélation de Spearman :

Hypothèse préliminaire : variables continues ou ordinales appariées.

L’idée de la formule du coefficient de corrélation est d’imaginer une fonction monotone pour laquelle les couples de rangs (R_i ^1, R _i^2), \forall i \in [1,n] associés aux couples de points (X ^1, X ^2) seraient les plus proches possibles relativement à la variance des vecteurs des rangs. En notant n le nombre d’observations, et en se basant sur ce principe, on a la formule suivante :

r_s (R ^1,R ^2) = \frac{\sum_{i = 1} ^n (R_i ^1 - \overline{R ^1}) \cdot (R_i ^2 - \overline{R ^2})}{\sqrt{\sum_{i = 1} ^n (R_i ^1 - \overline{R ^1})^2 \cdot \sum_{i = 1} ^n (R_i ^2 - \overline{R ^2})^2}} = \frac{S_{R ^1} + S_{R ^2} - \sum_{i = 1} ^n (R_i ^1 - R_i ^2)}{2 \sqrt{S_{R ^1} \cdot S_{R ^2}}}

En notant g_1, g_2 le nombre de groupes d’ex-æquos respectivement pour R ^1, R^2, on a :

S_{R ^1} = \frac{n(n ^2 - 1) - \sum_{k_1 = 1} ^{g_1} (t_{k_1} ^3 - t_{k_1})}{12}

– S_{R ^2} = \frac{n(n ^2 - 1) - \sum_{k_2 = 1} ^{g_2} (t_{k_2} ^3 - t_{k_2})}{12}

, avec t_k le nombre d’ex-æquos au sein du groupe k.

Le coefficient de corrélation de Spearman varie dans l’intervalle [-1,1]. De façon « universellement arbitraire » on parle de,

– corrélation positive : lorsque l’une des variables est fonction croissante de l’autre. L’Angle formé entre les deux variables tend alors vers 0 ^{\circ} si le coefficient r_s \in [0.7 , 1] ;

– de corrélation négative : lorsque l’une des variables est fonction décroissante de l’autre. L’Angle formé entre les deux variables tend alors vers 180 ^{\circ} si le coefficient r_s \in [-1 , -0.7].

Plus r_s converge en valeur absolue vers 1 et plus la corrélation entre les deux variables est forte. A contrario, plus il tend vers 0 et plus l’orthogonalité entre les deux vecteurs est forte, ce qui implique l’absence de corrélation.

Le coefficient de corrélation de Spearman présente l’intérêt de pouvoir détecter les liaisons monotones contrairement à celui de Bravais-Pearson. La notion de liaison monotone est représentée dans la série de figure ci-dessous :

FIGURE67

Evolution du coefficient de corrélation : 

Etant donné qu’il s’agit de rangs, on peut écrire R ^2 comme une permutation p(.) particulière (du fait de la présence éventuelle d’ex-æquos) de R ^1. Ainsi, le coefficient de corrélation de Spearman converge vers 1 si le nombre de permutations pour que R ^1 = R ^2 tends vers 0, soit le cas triviale :R ^1 = R ^2, ou n.

Ce dernier cas implique que \forall k \in [1, \cdots, n], R_i ^1 = R_{n - i + 1} ^2 (ou inversement) et \overline{R ^1} = \overline{R ^2}.

L’application de ce cas au dénominateur donne :

\sqrt{\sum_i (R_i ^1 - \overline{R ^1}) ^2 \times \sum_i (R_i ^2 - \overline{R ^2})} = \sqrt{\sum_i (R_i ^1 - \overline{R ^1}) ^2 \times \sum_i (R_{n - i + 1} ^1 - \overline{R ^1})}

= \sqrt{\sum_i (R_i ^1 - \overline{R ^1}) ^2 \times \sum_i (R_i ^1 - \overline{R ^1})}

= \sum_i (R_i ^1 - \overline{R ^1}) ^2

Pour le numérateur, dans ce cas de figure, il faut se rendre compte que :

R ^2 - \overline{R ^2} = R_{i - n + 1} ^1 - \overline{R ^1} = - (R_i ^1 - \overline{R ^1})

Donc, si le nombre de permutations tend vers n ou 0, on voit bien que le coefficient de corrélation tend respectivement vers -1,1.

On remarque que le numérateur, soit la cohérence des fluctuations entre R ^1 et R ^2, ne peut jamais être plus grand que le dénominateur, soit l’estimation optimiste de ces fluctuations. Etant donné que la formule consiste en un ratio distance relative sur distance euclidienne, cela explique que le coefficient varie entre -1 et 1.

Le coefficient de corrélation de Daniels :

Les coefficients de corrélation de Pearson, Kendall et Spearman peuvent être considérés comme des cas particuliers d’un même et unique formule appelée coefficient de corrélation de Daniels.

Pour toute paire d’observations i_1,i_2 \in [1,n], on note a_{i_1,i_2}, b_{i_1,i_2} les indices respectivement associés aux variables R ^1, R ^2. La formule du coefficient de corrélation de Daniels est alors :

r_{(X ^1, X ^2)} ^D = \frac{\sum_{i_1} \sum_{i_2} a_{i_1,i_2} \cdot b_{i_1,i_2}}{\sqrt{(\sum_{i_1} \sum_{i_2} a_{i_1,i_2} ^2) \cdot (\sum_{i_1} \sum_{i_2} b_{i_1,i_2} ^2)}}

Il varie également dans l’intervalle [-1; +1] et les conclusions sont les mêmes que pour le coefficient de corrélation de Spearman.

On peut alors retrouver le coefficient de corrélation de Spearman en posant a_{i_1,i_2} = (R_i ^1 - \overline{R ^1}) et b_{i_1,i_2} = (R_i ^2 - \overline{R ^2}).

\bullet Le test de nullité du coefficient :

A la formule du coefficient de corrélation est associée la statistique du test de nullité qui permet de déterminer si r_s est significativement différent de 0,

t = (n-2) ^{\frac{1}{2}} \cdot \frac{\vert r_s (R ^1,R ^2) \vert}{\sqrt{1 - r_s (R ^1, R ^2) ^2}}

Elle suit une loi de Student à n-2 degrés de liberté. L’hypothèse H_0 est :

La pente formée entre les deux variables est nulle / r_s = 0

Avec T_{1 - \alpha} la valeur seuil de la distribution de la statistique de test T pour une confiance \alpha, les hypothèses alternatives sont alors,

H_1: r_s > 0, soit T > T_{1 - \alpha}, pour un test unilatéral à droite ;

H_1: r_s < 0, soit T > T_{\alpha}, pour un test unilatéral à gauche ;

H_1: r_s \neq 0, soit |T| > T_{\frac{\alpha}{2}}, pour un test bilatéral.

La table de la loi de Student :

add

Calcul de la p-valeur exacte :

La loi de distribution à laquelle reporter la statistique de test de nullité du coefficient de corrélation de Spearman est celle de Student. En prenant d le nombre de degrés de liberté et restant dépendant de n, B(z,\frac{1}{2},\frac{d}{2}) la fonction Bêta incomplète et B(\frac{1}{2},\frac{d}{2}) la fonction Bêta. Le calcul de la p-valeur associée à la statistique de test est alors,

– Dans le cas bilatéral :

p = P(t_{obs} > t_{n,\frac{\alpha}{2}}) = 1 - \frac{B(z,\frac{1}{2},\frac{d}{2})}{B(\frac{1}{2},\frac{d}{2})}

– Dans le cas unilatéral à droite :

p = P(t_{obs} > t_{n,\alpha}) = \frac{1}{2} + \frac{1}{2} \frac{B(z,\frac{1}{2},\frac{d}{2})}{B(\frac{1}{2},\frac{d}{2})}

– Dans le cas unilatéral à gauche :

p = P(t_{obs} > t_{n,1-\alpha}) = \frac{1}{2} - \frac{1}{2} \frac{B(z,\frac{1}{2},\frac{d}{2})}{B(\frac{1}{2},\frac{d}{2})}

Avec,

z = \frac{\frac{t_{obs} ^2}{d}}{1 + \frac{t_{obs} ^2}{d}} ;

B(\frac{1}{2},\frac{d}{2}) = \frac{\Gamma(\frac{1}{2}) \Gamma(\frac{d}{2})}{\Gamma(\frac{1}{2} + \frac{d}{2})} = \sqrt{\pi}\frac{ \Gamma(\frac{d}{2})}{\Gamma(\frac{d + 1}{2})} ;

B(z;\frac{1}{2},\frac{d}{2}) = \sqrt{z} (2 + \sum_{k = 1} ^K \frac{\prod_{j = 1} ^k (j - \frac{d}{2})}{k ! (\frac{1}{2} + k)} z ^k), qui converge assez rapidement pour K faible.

Conditions pour le rejet de H_0 :

Plus la statistique t est grande et plus on a de chance de rejeter H_0. En effet, r_s variant dans [-1, 1], ce qui implique que lorsque r_s ^2 \longrightarrow 1 alors le dénominateur, \sqrt{1 - r_s ^2} tend vers 0 et donc t \longrightarrow + \infty.

Concrètement, la valeur réellement informative n’est pas le p-value du test de nullité du coefficient mais le coefficient de corrélation. Il peut arriver qu’un coefficient | r_s | > 0.7 ne soit associé à un test significatif. En effet, ce n’est pas parce que la pente formée entre les deux variables vaut 0 qu’il n’y a pas la once d’une relation linéaire.

\bullet Tendance lorsque n \longrightarrow \infty:

On s’intéresse désormais à la résistance du test de nullité du coefficient de corrélation de Spearman au fur et à mesure que la taille d’échantillon croît. On fixe le ratio à 0.001, soit un cas fictif correspondant à un coefficient proche de 0. L’on va s’intéresser à l’influence du facteur (n - 2) ^{\frac{1}{2}} sur la statistique de test. Le résultat attendu est forcément que quelque soit la taille de l’échantillon, on ne rejettera pas l’hypothèse H_0 de nullité du coefficient. Le graphique ci-dessous montre l’évolution de la p-valeur p associée à la statistique de test t_{test} fixée lorsque n croît de 10 à 100 000 observations :

De manière hâtive, on reste en adéquation avec l’hypothèse de construction de la statistique de test jusqu’à n = 1641 (p > 20 \%). Jusqu’à n = 38409, on se forcera à rejeter H_0 avec un risque assez fort compris entre 20 \% et 5 \%. Enfin, à n = 66344 la p-valeur passe en dessous des 1 \%.

Cette simulation montre que le test de nullité du coefficient de corrélation de Spearman est atteint par la malédiction des grands échantillons. Cependant, et même s’il faut relativiser ce constat car ici on prend une statistique de test particulièrement faible, on peut également voir qu’il offre une certaine marge et permet de travailler sur des échantillons assez importants.

\bullet Annexe théorique:

On présente ici une esquisse de la démonstration du coefficient de corrélation de Spearman ainsi que celle du test de nullité qui lui est associé.

Développement du coefficient de corrélation de Spearman :

Dans la cas où l’on n’a pas d’ex-æquos, il est possible de simplifier la formule de base du coefficient de Spearman. 

Finalement les rangs peuvent être vue comme des permutations de [1,n], on peut alors se baser sur la loi de distribution uniforme discrète. On a ainsi :

\overline{R ^1} = \overline{R ^2} = \frac{n + 1}{2}

var(R ^1) = var(R ^2) = \frac{n ^2 - 1}{2}

Par conséquent,

r_s (R ^1,R ^2) = \frac{\sum_i (R_i ^1 - \overline{R ^1}) \cdot (R_i ^2 - \overline{R ^2})}{\sqrt{\sum_i (R_i ^1 - \overline{R ^1})^2 \cdot \sum_i (R_i ^2 - \overline{R ^2})^2}} = \frac{cov(R ^1, R ^2)}{\sqrt{var(R ^1) \cdot var(R ^2)}}

Qui, par définition de la covariance, vaut :

r_s (R ^1,R ^2) = \frac{\overline{R ^1 \cdot R ^2} - \overline{R ^1} \cdot \overline{R ^2}}{\sqrt{\frac{n ^2 - 1}{12} \cdot \frac{n ^2 - 1}{12}}}

On remarque que :

n \cdot \overline{R ^1 \cdot R ^2} = \sum_{i = 1} ^n R_i ^1 \cdot R_i ^2 = -\frac{1}{2} (\sum_i (R_i ^1 - R_i ^2) ^2 - \sum_i (R_i ^1) ^2 - \sum_i (R_i ^2) ^2)

Et comme \sum_i (R_i ^1) ^2 = \sum_i (R_i ^2) ^2 = \frac{n \cdot (n + 1) \cdot (2n + 1)}{6}, on a alors :

r_s = \frac{\frac{1}{n} \cdot (- \frac{1}{2} \sum_i (R_i ^1 - R_i ^2) + \frac{n(n + 1)(2n + 1)}{6}) - (\frac{n + 1}{2}) ^2}{\frac{n ^2 - 1}{12}} = \frac{12 \cdot 4 (n + 1) (2n + 1) - 6 (n + 1) ^2}{24 \cdot (n ^2 - 1)} - \frac{12 \cdot \frac{1}{2} \cdot \sum_i (R_i ^1 - R_i ^2)}{n \cdot (n ^2 - 1)}

 = 1 - \frac{6 \sum_i ( R_i ^1 - R_i ^2)}{n \cdot (n ^2 - 1)}

Démonstration du test de nullité du coefficient de corrélation :

Cette démonstration peut s’étendre aux tests associés aux coefficients de  corrélation de Pearson et Kendall. On posera r_s = r.

De manière général, la qualité du coefficient de corrélation b peut s’écrire :

t = \frac{b}{\sqrt{var(b)}}

En utilisant l’abréviation SCE = somme des carrés des écarts non expliqués et par définition de la variance, on a,

var(b) = \frac{SCE}{(n- 2) \cdot (n - 1) \cdot var(X^1)}

Via les abréviations SCT = somme des carrés des écarts totaux qui par définition vaut SCT= var(X ^2) \times (n - 1), et SCR = =  somme des carrés des écarts expliqués qui par définition vaut SCR = r ^2 \times SCT, on rappelle que :

SCE = SCT - SCR = SCT \times (1 - r ^2) = var(X ^2) \cdot (n - 1) \cdot (1 - r ^2)

Par conséquent,

var(b) = \frac{var(X ^2) \cdot (n - 1) \cdot (1 - r ^2)}{(n - 2) \cdot (n - 1) \cdot var(X ^1)} = \frac{var(X ^2) \cdot (1 - r ^2)}{(n- 2) \cdot var(X^1)}

On en déduit donc que :

t = \frac{b}{\sqrt{\frac{var(X ^2) \cdot (1 - r^2)}{(n - 2) \cdot var(X ^1)}}} = \frac{b \times \sqrt{var(X ^1)} \times \sqrt{n - 2}}{\sqrt{var(X ^2)} \times \sqrt{1 - r ^2}}

On reconnait la formule du coefficient de corrélation de Spearman basée sur le calcul de la pente :

r = \frac{\sqrt{var(X)}}{\sqrt{var(Y)}} \times b

On retrouve alors la formule du test de nullité du coefficient de corrélation :

t = \sqrt{n-2} \times \frac{r}{\sqrt{1 - r ^2}}

\bullet Exemple:

Soit les deux variables X ^1, X^2 suivantes,

\begin{tabular}{|c|c|} \hline X1 & X2 \\ \hline 3.1101 & 0.8970 \\ \hline 4.1008 & 2.0949 \\ \hline 4.7876 & 3.0307 \\ \hline 7.0677 & 4.0135 \\ \hline 6.0858 & 5.0515 \\ \hline 4.9309 & 6.0261 \\ \hline 4.0449 & 6.9059 \\ \hline 3.0101 & 7.9838 \\ \hline 5.9495 & 8.9854 \\ \hline 6.8729 & 9.9468 \\ \hline 1.0898 & 11.1682 \\ \hline 1.9868 & 11.9124 \\ \hline 2.9853 & 12.9516 \\ \hline 10.0080 & 13.9288 \\ \hline 8.9052 & 14.8826 \\ \hline 8.0411 & 15.9808 \\ \hline 2.0826 & 16.9726 \\ \hline 1.0536 & 18.1530 \\ \hline 9.0649 & 18.9751 \\ \hline 10.0826 & 19.8936 \\ \hline \end{tabular}

Ci-dessous le nuage de point associé au croisement des deux variables :

add

On passe donc à la forme rang des vecteurs X ^1 et X ^2, ci-dessous les deux échantillons transformés :

\begin{tabular}{|l|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|} \hline X1 & 7 & 9 & 10 & 15 & 13 & 11 & 8 & 6 & 12 & 14 & 2 & 3 & 5 & 19 & 17 & 16 & 4 & 1 & 18 & 20 \\ \hline X2 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 & 13 & 14 & 15 & 16 & 17 & 18 & 19 & 20 \\ \hline \end{tabular}

On remarque l’absence d’ex-aequo ce qui implique \overline{(R)_1} = \overline{(R)_2} = 10.5. Le coefficient de corrélation de Spearman vaut :

r_s = \frac{-9.5 \times (-3.5) + \ldots + (-9.5) \times (-9.5)}{\sqrt{(-9.5) ^2 + \ldots + 9.5 ^2} \times \sqrt{(-9.5) ^2 + \ldots + 9.5 ^2}} = \frac{121}{\sqrt{665}} = 0.1819549

La statistique de test est :

t = \sqrt{18} \cdot \frac{0.1819549}{\sqrt{1 - 0.1819549 ^2}} = 0.7850746

On cherche à tester bilatéralement le rejet de l’hypothèse H_0. Sous cette approche, on génère une loi de Student à 20 - 2 = 18 degrés de liberté et l’on reporte sur le graphe ci-dessous les valeurs seuils qui correspondent aux quantiles à 20 \%, 10 \%, 5 \% et 1 \% dans le cadre bilatéral,

add

En se reportant aux valeurs de la table de la loi de Student ci-dessus, on constate que,

t_{obs} = 0.7850746< T_{18,20\%,\mbox{bilat\'eral}} = 1.330391

Maintenant, on calcul la p-valeur exacte associée à la statistique de test t_{obs} dans le cadre bilatéral et pour 20 - 2 = 18 degrés de liberté. On commence par appliquer le changement de variable,

z = \frac{\frac{0.7850746^2}{18}}{1 + \frac{0.7850746^2}{18}} = 0.03310758

On a,

p = 1 - \frac{B(0.03310758,\frac{1}{2},\frac{18}{2})}{B(\frac{1}{2},\frac{18}{2})} = 1 - \frac{0.3339128}{0.5990767} = 1 - 0.557379 = 0.442621 > 5 \%

On ne pourra pas rejeter H_0 au risque de 5 \% et on en conclut que r_s(X ^1, X^2) = 0 au sens statistique du terme.

\bullet Application sous R :

Soit l’exemple suivant :

X1 = c(3.1101,4.1008,4.7876,7.0677,6.0858,4.9309,4.0449,3.0101,5.9495,
6.8729,1.0898,1.9868,2.9853,10.0080,8.9052,8.0411,2.0826,1.0536,9.0649,10.0826)

X2 = c(0.8970,2.0949,3.0307,4.0135,5.0515,6.0261,6.9059,7.9838,8.9854,9.9468,
11.1682,11.9124,12.9516,13.9288,14.8826,15.9808,16.9726,18.1530,18.9751,19.8936)

Package et fonction R: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/cor.test.html

La fonction cor.test du package stats permet d’appliquer le coefficient de corrélation de Spearman et le test de nullité associé. Le package se charge automatiquement lors du lancement de R.

On lance le coefficient de corrélation de Spearman afin d’étudier la force de la corrélation entre X^1 et X^2 et on regarde si cette dernière est statistiquement différente de 0. On procède de la manière suivante :

cor.test(X1,X2,method= « spearman »,exact=FALSE)

Parmi les éléments à insérer les plus importants il faut relever :

– Les deux variables sur lesquelles appliquer le coefficient de corrélation : X1, X2 ;

– Le type de coefficient de corrélation : method = « spearman » ;

– L’option permettant de reporter la statistique de test déterminée à la loi de Student : exact = TRUE ; (si on avait paramétré à FALSE, la fonction R se base alors sur l’algorithme AS 89)

– On aurait pu rajouter l’instruction « alternative » qui permettra de déterminer si on veut procéder à un test bilatéral, unilatéral à gauche ou à droite. Par défaut le logiciel R lance le test dans un cadre bilatéral.

On obtient alors les résultats suivants :

addbbb

On vérifie :

– Les données utilisées : « data: X1 and X2 » ;

– Le coefficient de corrélation de Spearman : « 0.18195495 » , qui est le même que celui obtenu lors des calculs manuels (cf section « Exemple » ) ;

– La p-valeur : « p-value = 0.4426 » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple » ) ;

– Et le type de test effectué : « alternative hypothesis: true rho is not equal to 0  » .

\bullet Application sous SAS :

Soit l’exemple suivant :

data E;
input X1 X2;
cards;
3.1101 0.8970
4.1008 2.0949
4.7876 3.0307
7.0677 4.0135
6.0858 5.0515
4.9309 6.0261
4.0449 6.9059
3.0101 7.9838
5.9495 8.9854
6.8729 9.9468
1.0898 11.1682
1.9868 11.9124
2.9853 12.9516
10.0080 13.9288
8.9052 14.8826
8.0411 15.9808
2.0826 16.9726
1.0536 18.1530
9.0649 18.9751
10.0826 19.8936
;
run;

Procédure SAS : https://documentation.sas.com/?docsetId=procstat&docsetTarget=procstat_corr_toc.htm&docsetVersion=9.4&locale=en

On lance le coefficient de corrélation de Spearman afin d’étudier la force de la corrélation entre X^1 et X^2 et on regarde si cette dernière est statistiquement différente de 0. On procède de la manière suivante :

proc corr data = E spearman;
var X1 X2;
ods exclude VarInformation SimpleStats;
run;

Parmi les éléments à insérer les plus importants il faut relever :

– La table contenant nos données : data = E ;

– Le type de coefficient de corrélation : spearman; 

– Les deux variables sur lesquelles appliquer le coefficient de corrélation : var X1 X2 ;

– L’ods output est utilisé afin de filtrer les résultats et n’afficher que ceux dont on a besoin.

On obtient alors les résultats suivants :

addbb

On vérifie :

– Sur la première ligne de la cellule X1, X2, la valeur du coefficient de corrélation : « 0.18195 » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple » ) ;

– Sur la seconde ligne de la cellule X1, X2, la p-valeur: « 0.4426 » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple » ).

\bullet Bibliographie:

– The proof and measurement of association between two things de Charles Spearman

– Probabilité, analyse de données et Statistique de Gilbert Saporta

– Statistique, dictionnaire encyclopédique de Yadolah Dodge

– Data mining et statistique décisionnelle de Stéphane Tufféry