Le coefficient de corrélation partielle

snedecor\bullet Présentation:

Issue des travaux de Ronald Aylmer Fisher en 1924, le coefficient de corrélation partielle est une approche non paramétrique permettant de mesurer l’influence d’une variable continue X ^3 sur la corrélation de deux autres variables continues X ^1, X ^2.

L’idée du coefficient de corrélation partielle est de partir du principe que la relation ou l’absence de relation que nous pouvons observer entre deux variables est en fait le résultat d’une troisième variable non prise en compte lors des analyses.

\bullet Le test:

Hypothèse préliminaire: Variables continues.

La formule du coefficient de corrélation partielle est:

r_{X ^1, X ^2 / X ^3} = \frac{r_{X ^1, X ^2} - r_{X ^1, X ^3} \cdot r_{X ^2, X ^3}}{\sqrt{1 - r_{X ^1, X ^3} ^2} \cdot \sqrt{1 - r_{X ^2, X ^3} ^2}}

Où,

r_{X ^1, X^2} est le coefficient de corrélation entre X ^1, X ^2 et donc la valeur à comparer à r_{X ^1, X ^2 / X ^3},

r_{X ^2, X^3} est le coefficient de corrélation entre X ^2, X ^3 et donc l’un des deux effets sous-jacents suspectés et étudiés,

r_{X ^1, X^3} est le coefficient de corrélation entre X ^1, X ^3 et donc l’un des deux effets sous-jacents suspectés et étudiés.

La formule du coefficient partielle s’adapte aux approches de Pearson, Kendall et Spearman.

Le coefficient de corrélation partielle varie dans [-1, 1]. Lorsqu’il vaut 0 cela implique soit que X ^3 agit fortement sur la relation entre X ^1, X ^2, soit que les trois variables sont indépendantes.

Variation du coefficient de corrélation partielle:

Deux cas nous intéresse,

| r_{X ^1, X ^2 / X ^3} | = 0

| r_{X ^1, X ^2 / X ^3} | = 1

Pour le premier, nous avons,

| r_{X ^1, X ^2 / X ^3} | = 0 \Rightarrow \frac{r_{X ^1, X ^2} - r_{X ^1, X ^3} \cdot r_{X ^2, X ^3}}{\sqrt{1 - r_{X ^1, X ^3} ^2} \cdot \sqrt{1 - r_{X ^2, X ^3} ^2}} = 0 \Rightarrow r_{X ^1, X ^2} = r_{X ^1, X ^3} \cdot r_{X ^2, X ^3}

, ce qui revient à dire que la corrélation entre X ^1, X ^2 est expliquée en partie ou intégralement par celles entre X ^1, X ^3 et/ou X ^2, X ^3. Soit que X ^3 a une influence non négligeable sur l’interaction entre ces deux variables.

Pour le second cas, préférons l’approche par les formes en cosinus en posant a l’angle formé entre X ^2, X ^3, b celui formé entre X ^1, X ^2 et c entre X ^1, X ^2,

| r_{X ^1, X ^2 / X ^3} | = 1 \Rightarrow | \frac{cos(c) - cos(a) cos(b)}{sin(a) sin(b)} | = 1

\Rightarrow cos(c) - cos(a) cos(b) = sin(a) sin(b)

\Rightarrow cos(c) = sin(a) sin(b) + cos(a) cos(b)

\Rightarrow cos(c) = cos(a - b)

\Rightarrow c = a - b

, par formule trigonométrique.

Cette égalité revient à dire que l’angle formé entre X ^1, X ^2 est le même que celui entre X ^2, X ^3 retranché de l’angle formé entre X ^1, X ^3. Une telle situation se produit lorsque la variable X ^3 est indépendante de X ^1 et de X ^2.

\bullet Annexe théorique:

Plusieurs méthodes existent afin de démontrer la formule du coefficient de corrélation partielle. La plus célèbre étant celle basée sur l’interprétation géométrique de la corrélation au travers de l’expression par le cosinus.

Considérons la sphère de centre O et contenant les points A, B, C. Une fois centrés-réduits, nous considérons les vecteurs OA, OB, OC de longueur unité (source wikipédia) :

PartialCorrelation.png

La considération des trois points donnent naissance au triangle sphérique ABC, dont les côtés a, b et c sont les arcs de cercle BC, AC et AB.

Les coefficients de corrélations entre ces vecteurs sont alors de la forme:

r_{B,C} = cos(a),

r_{A,C} = cos(b),

r_{A,B} = cos(c).

La loi fondamentale des triangles sphériques donne, pour l’angle C, la relation suivante entre les cosinus:

cos(C) = \frac{cos(c) - cos(a) cos(b)}{sin(a) sin(b)} = \frac{cox(c) - cox(a) cox(b)}{\sqrt{1 - cos ^2 (a)} \sqrt{1 - cos ^2 (b)}}

, étant donné que sin ^2 (a) + cos ^2 (a) = 1.

De même que c est l’angle entre les points A et B, vus du centre de la sphère, C est l’angle sphérique entre les points A et B, vus du point C à la surface de la sphère, et r_{A,B / C} = cos(C) est la « corrélation partielle » entre A et B quand C est fixé.

\bullet Exemple:

Soit l’échantillon suivant:

add

Nous cherchons à déterminer l’influence de X ^3 dans la corrélation que nous pouvons observer entre X ^1, X ^2.

Commençons par déterminer les coefficients de corrélation entre nos trois différentes variables. Nous utiliserons la formule de Pearson:

r_{X ^1, X ^2} = 0.622947,

r_{X ^2, X ^3} = 0.01953446,

r_{X ^1, X ^3} = 0.1308285.

Nous pouvons désormais calculer la valeur du coefficient de corrélation partielle,

r_{X ^1, X ^2 / X ^3} = \frac{0.622947 - 0.01953446 \times 0.1308285}{\sqrt{1 - 0.1308285 ^2} \times \sqrt{1 - 0.01953446 ^2}}

= \frac{0.622947 - 0.002555664}{\sqrt{1 - 0.01711609} \times \sqrt{1 - 0.0003815951}}

= \frac{0.6203913}{\sqrt{0.9828039} \times \sqrt{0.9996184}}

= \frac{0.6203913}{0.991405 \times 0.9998092}

= \frac{0.6203913}{0.9912158}

= 0.6258892

Finalement r_{X ^1, X ^2} \approx r_{X ^1, X ^2 / X ^3}. Nous en déduisons que la variable X ^3 a une faible influence sur la corrélation entre X ^1, X ^2.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_corr_sect017.htm

Package et fonction R:

cor.part = function(A,B,C,method) { # Calcul du coefficient de corrélation partielle de « A », »B » en contrôlant les effets de « C » et selon la méthode « method »

# Calcul des différents coefficients de corrélation
a = cor(cbind(A,B),method=method)[1,2]
b = cor(cbind(B,C),method=method)[1,2]
c = cor(cbind(A,C),method=method)[1,2]

# Calcul du coefficient de corrélation partielle
r=(a – b*c)/(sqrt(1 – c^2)*sqrt(1 – b^2))

# Impression du résultat
return(r)
}

\bullet Bibliographie:

– The distribution of the partial correlation coefficient de R. A. Fisher

– Probabilité, analyse des données et statistique de Gilbert Saporta

– Analyse de corrélation. Etudes des dépendances – Variables quantitatives de Ricco Rakotomalala