Le coefficient de corrélation et le test associé de Bravais-Pearson

Karl_Pearson\bullet Présentation:

Publié en 1896 par Karl Pearson, le coefficient de corrélation de Bravais-Pearson (également appelé coefficient de corrélation linéaire) et son test associé sont des approches paramétriques permettant de mesurer et de tester si deux variables continues appariées X ^1, X ^2, suivant une loi normale, sont corrélées.

Notons que l’aspect apparié des deux variables est abusif, le coefficient s’applique aussi bien à des variables temporelles qu’à des variables non appariées. Il serait plus concret de parler de variables conjointes.

Enfin, il faut garder à l’esprit que corrélation et causalité ne sont pas intrinsèquement liées.

\bullet Le coefficient de corrélation et le test de nullité:

Hypothèse préliminaire: variables continues appariées et normalités.

Le coefficient de corrélation de Pearson: L’idée de la formule du coefficient de corrélation est d’imaginer une droite optimale pour laquelle les couples de points (X_i ^1, X_i ^2) seraient les plus proches possibles relativement à la variance de leur distribution respective. C’est sur ce principe que nous trouvons alors la formule suivante:

r_p (X ^1,X ^2) = \frac{\sum_i (X_i ^1 - \overline{X ^1}) \cdot (X_i ^2 - \overline{X ^2})}{\sqrt{\sum_i (X_i ^1 - \overline{X ^1})^2 \cdot \sum_i (X_i ^2 - \overline{X ^2})^2}}

Le coefficient de corrélation de Pearson varie dans l’intervalle [-1 , 1]. De façon « universellement arbitraire » nous parlerons de:

– corrélation positive (comprendre que l’une des variables est fonction croissante de l’autre, l’angle formé entre les deux variables tend vers 0°) si le coefficient est dans l’intervalle [0.7 , 1].

– de corrélation négative (comprendre que l’une des variables est fonction décroissante de l’autre, l’angle formé entre les deux variables tend vers 180°) si le coefficient est dans l’intervalle [-1 , -0.7].

Plus r_p converge en valeur absolue vers 1 et plus la corrélation entre les deux variables est forte, à contrario plus le coefficient tend vers 0 et plus les vecteurs sont orthogonaux entre eux et donc non corrélés.

Il faut bien garder à l’esprit que le coefficient de corrélation de Pearson mesure la qualité de la relation linéaire entre les deux échantillons. Ainsi, par exemple, une relation quadratique ne sera pas décelée par cet outil statistique.

Ci-dessous quelques exemples tirés du site wikipédia et assez représentatif de ce que peut détecter ce coefficient.

add

Tendance du coefficient de corrélation: 

Soit (X ^1, X ^2). Trivialement, le coefficient de corrélation tend vers 1 lorsque X ^1 \longrightarrow a \cdot X ^2 + b, (c,b) \in REn effet si cela devient le cas nous obtenons que:

r_p (X ^1, X ^2) = \frac{\sum_i (X_i ^1 - \overline{X ^1}) \cdot (X_i ^2 - \overline{X ^2})}{\sqrt{\sum_i (X_i ^1 - \overline{X ^1}) ^2 \cdot \sum_i (X_i ^2 - \overline{X ^2}) ^2}} \longrightarrow \frac{\sum_i (a \cdot X_i ^2 + b - \overline{a \cdot X_i ^2 + b}) \cdot (X_i ^2 - \overline{X ^2})}{\sqrt{\sum_i (a \cdot X_i ^2 + b - \overline{a \cdot X_i ^2 + b}) ^2 \cdot \sum_i (X_i ^2 - \overline{X ^2}) ^2}} = r_p (a \cdot X ^2 + b, X ^2)

r_p (a \cdot X ^2 + b, X^2) = \frac{\sum_i (a \times (X_i ^2 - \overline{X ^2}) + b - b) \cdot \sum_i (X_i ^2 - \overline{X ^2})}{\sqrt{\sum_i (a \times (X_i ^2 - \overline{X^2}) + b - b) ^2} \cdot \sqrt{\sum_i (X_i ^2 - \overline{X ^2})^2}}

= \frac{a \cdot \sum_i (X_i ^2 - \overline{X ^2}) ^2}{\sqrt{a ^2} \cdot \sqrt{\sum_i (X_i ^2 - \overline{X ^2}) ^2}}

= 1

Notons que le numérateur (soit la cohérence des fluctuations entre X ^1 et X ^2) ne peut jamais être plus grand que le dénominateur (soit l’estimation optimiste de ces fluctuations). Etant donné que la formule consiste en un ratio distance relative sur distance euclidienne, cela explique que le coefficient varie entre -1 et 1.

Le test de nullité du coefficient de corrélation de Pearson: A cette formule du coefficient de corrélation est associée la statistique du test de nullité:

t = (n-2) ^{\frac{1}{2}} \cdot \frac{\vert r_p (X ^1,X ^2) \vert}{\sqrt{1 - r_p (X ^1, X ^2) ^2}}

Ce dernier suit une loi de Student à n-2 degrés de liberté, n désignant le nombre d’observations.

L’hypothèse H_0 est:  » la pente formée entre les deux variables est nulle / r_p = 0« .

Ci-dessous la table de Student.

add

Concrètement, la valeur réelle informative n’est pas le p-value du test de nullité du coefficient mais le coefficient de corrélation. Il peut arriver qu’un coefficient | r_p | > 0.7 ne soit associé à un test associé significatif. En effet, ce n’est pas parce que la pente formée entre les deux variables vaut 0 qu’il n’y a pas relation linéaire.

Tendance pour le rejet de H_0: plus la statistique t est grande et plus nous avons de chance de rejeter H_0. En effet, r_p variant dans [-1, 1], ce qui implique que lorsque r_p ^2 \longrightarrow 1 alors le dénominateur, \sqrt{1 - r_p ^2} tend vers 0 et donc t \longrightarrow + \infty.

Le coefficient de corrélation de Daniels:

Les coefficients de corrélation de Pearson, Kendall et Spearman peuvent être considérés comme des cas particuliers d’un même et unique formule appelée coefficient de corrélation de Daniels.

Pour toute paire d’observations i,j, nous notons a_{i,j}, b_{i,j} les indices respectivement associés aux variables X ^1, X ^2. La formule du coefficient de corrélation de Daniels est alors:

r_{(X ^1, X ^2)} ^D = \frac{\sum \sum a_{i,j} \cdot b_{i,j}}{\sqrt{(\sum \sum a_{i,j} ^2) \cdot (\sum \sum b_{i,j} ^2)}}

Il varie également dans l’intervalle [-1; +1] et les conclusions sont les mêmes que pour le coefficient de corrélation de Pearson.

\bullet Tendance lorsque n \longrightarrow \infty:

La formule du coefficient de corrélation est indépendante de n, par conséquent son calcul n’est pas influencé par l’augmentation de la taille de l’échantillon, se qui en fait un indicateur très performant. Le test associé, quand à lui, dépend de n et devient de plus en plus obsolète au fur et à mesure que n grandit.

\bullet Annexe théorique:

Démonstration du coefficient de corrélation de Bravais-Pearson:

Soit l’ensemble des classes de variables aléatoires munit du produit scalaire < X^1,X^2 > = E(X^1 X^2) et de la norme || X || = (E(X) ^2) ^{\frac{1}{2}}, formant ainsi un espace d’Hilbert L ^2.

Dans cet espace, l’écart-type \sigma et la covariance \Sigma sont alors, respectivement, la norme et le produit scalaire des variables centrées.

Ainsi si nous considérons l’ensemble des variables constantes nous formons la droite D de L ^2, E[X] devient alors la projection orthogonale de X sur D car le minimum de E[(X - a)^2] est atteint pour a = E[X].

En nous servant de la formule de Köning-Huyghens nous avons:

E[(X - a) ^2] = V(X) + (E[X] - a) ^2

Soit deux variables de notre espace X^1, X^2. Or cov(X^1,X^2) = < X^1 - E[X^1], X^2 - E[X^2] > et en nous servant de l’inégalité de Schwarz, nous obtenons:

| cov(X^1,X^2) | \geq || X^1 - E[X^1] || \cdot || X^2 - E[X^2] || \Rightarrow | cov(X^1,X^2) \geq \sigma_{X^1} \sigma_{X^2}

L’angle formé par X^1 - E[X^1] et X^2 - E[X^2] est donc égale à \frac{cov(X^1,X^2)}{\sigma_{X^1} \sigma_{X^2}} d’où la notion d’orthogonalité dans la corrélation ou non entre X^1, X^2, alors:

\rho = \frac{cov(X^1,X^2)}{\sigma_{X^1} \sigma_{X^2}} \Rightarrow -1 \leq \rho \geq 1

Démonstration du test de nullité du coefficient de corrélation:

Cette démonstration peut s’étendre aux tests associés aux coefficient de  corrélation de Spearman et Kendall.

De manière général, la qualité du coefficient de corrélation b peut s’écrire:

t = \frac{b}{\sqrt{var(b)}}

En utilisant l’abréviation SCE = somme des carrés des écarts non expliqués et par définition de la variance, nous avons,

var(b) = \frac{SCE}{(n- 2) \cdot (n - 1) \cdot var(X^1)}

Via les abréviations SCT = somme des carrés des écarts totaux qui par définition vaut SCT= var(X ^2) \times (n - 1), et SCR =  somme des carrés des écarts expliqués qui par définition vaut SCR = r ^2 \times SCT, nous rappelons que:

SCE = SCT - SCR = SCT \times (1 - r ^2) = var(X ^2) \cdot (n - 1) \cdot (1 - r ^2)

Par conséquent,

var(b) = \frac{var(X ^2) \cdot (n - 1) \cdot (1 - r ^2)}{(n - 2) \cdot (n - 1) \cdot var(X ^1)} = \frac{var(X ^2) \cdot (1 - r ^2)}{(n- 2) \cdot var(X^1)}

Nous en déduisons donc que:

t = \frac{b}{\sqrt{\frac{var(X ^2) \cdot (1 - r^2)}{(n - 2) \cdot var(X ^1)}}} = \frac{b \times \sqrt{var(X ^1)} \times \sqrt{n - 2}}{\sqrt{var(X ^2)} \times \sqrt{1 - r ^2}}

Nous reconnaissons la formule du coefficient de corrélation de Pearson basée sur le calcul de la pente: r = \frac{\sqrt{var(X)}}{\sqrt{var(Y)}} \times b.

Nous retrouvons alors la formule du test de nullité du coefficient de corrélation: t = \sqrt{n-2} \times \frac{r}{\sqrt{1 - r ^2}}.

\bullet Exemple:

Soit les deux variables X ^1, X^2 ci-dessous,

add

Ci-dessous le nuage de point associé au croisement des deux échantillons:

add

En rappelant que \overline{(X_{quant})_1} = 5.26301 et \overline{(X_{quant})_2} = 10.48771, nous avons le coefficient de corrélation de Pearson qui vaut:

r_p= \frac{-2.15291 \times (-9.590715) + \ldots + 9.405885 \times 4.81959}{\sqrt{(-2.15291) ^2 + \ldots + 9.405885 ^2} \times \sqrt{(-9.590715) ^2 + \ldots + 4.81959 ^2}} = \frac{86.55974}{\sqrt{662.2609}} = 0.2640795

La statistique de test est:

t = \sqrt{18} \cdot \frac{0.2640795}{\sqrt{1 - 0.2640795 ^2}} = 1.161631

, et la p-value obtenue pour 18 degrés de liberté est 0.2606. Nous ne pouvons rejeter H_0 et ne pouvons conclure que le coefficient r_p est différent de 0.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_corr_sect029.htm

Package et fonction Rhttp://stat.ethz.ch/R-manual/R-patched/library/stats/html/cor.test.html

\bullet Bibliographie: 

– Studies in the history of Statistics and probability de Karl Pearson

– Statistique, dictionnaire encyclopédique de Yadolah Dodge

– Formules utiles pour la régression linéaire simple et la corrélation de Pearson de Daniel Borcard

– Probabilité, analyse des données et Statistiques de Gilbert Saporta