Le coefficient Phi de Pearson

Karl_Pearson

\bullet Présentation:

Créé suite aux travaux de Karl Pearson en 1900, le coefficient \phi de Pearson, également appelé coefficient de contingence des moindres carrés, est approche non paramétrique consistant à fournir une mesure d’association entre deux variables qualitatives binaires distinctes X ^1, X ^2.

A l’instar du V de Cramér, du Q de Yule ou encore du T de Tschuprow, le coefficient \phi de Pearson trouve toute son utilité lorsqu’il s’agit de pallier aux tests statistiques, notamment celui du \chi ^2 de Pearson, quand la taille d’échantillon est trop grande.

\bullet Le coefficient:

Hypothèse d’utilisation: Deux variables qualitatives binaires.

La formule du coefficient \phi de Pearson est:

\phi = \frac{n_{1,1} n_{2,2} - n_{1,2} n_{2,1}}{\sqrt{(n_{1,1} + n_{1,2}) (n_{2,1} + n_{2,2}) (n_{1,1} + n_{2,1}) (n_{1,2} + n_{2,2})}}

, où n_{l,c} correspond à l’effectif de la cellule en ligne l et colonne c du tableau croisé dynamique issue de X ^1, X ^2.

A noter qu’il est relié au \chi ^2 de Pearson par la relation suivante:

\phi = \sqrt{\frac{\chi ^2}{n}}

Enfin, le coefficient \phi de Pearson varie entre -1 et 1. Plus il est proche de ces bornes et plus la liaison est forte entre les deux variables. Un coefficient de 0 indique une situation d’indépendance.

Variation du coefficient \phi:

Trois cas sont d’intérêt: \phi = -1, \phi = 0, \phi =1. Commençons par le second,

\phi = 0 \Rightarrow \frac{n_{1,1} n_{2,2} - n_{1,2} n_{2,1}}{\sqrt{(n_{1,1} + n_{1,2}) (n_{2,1} + n_{2,2}) (n_{1,1} + n_{2,1}) (n_{1,2} + n_{2,2})}} = 0

\Rightarrow n_{1,1} n_{2,2} - n_{1,2} n_{2,1} = 0

\Rightarrow n_{1,1} n_{2,2} = n_{1,2} n_{2,1}

\Rightarrow n_{1,1} = n_{1,2}, n_{2,2} = n_{2,1} ou n_{1,1} = n_{2,1}, n_{2,2} = n_{1,2}

, soit que les produits des éléments des deux diagonales sont égaux et donc qu’il n’y a pas de relation entre X ^1, X ^2.

Pour les deux cas suivants, que nous pouvons résumer à,

| \frac{n_{1,1} n_{2,2} - n_{1,2} n_{2,1}}{\sqrt{(n_{1,1} + n_{1,2}) (n_{2,1} + n_{2,2}) (n_{1,1} + n_{2,1}) (n_{1,2} + n_{2,2})}} | = 1

, il s’agit de la situation où nous sommes en présence d’une relation forte entre X ^1, X ^2. Soit que l’une des deux diagonales ne contient que des éléments qui valent 0, ce qui implique,

– soit n_{1,2} = n_{2,1} = 0 \Rightarrow \frac{n_{1,1} n_{2,2}}{\sqrt{n_{1,1} n_{2,2} n_{1,1} n_{2,2}}} = \frac{n_{1,1} n_{2,2}}{\sqrt{(n_{1,1} n_{2,2}) ^2}} = \frac{n_{1,1} n_{2,2}}{n_{1,1} n_{2,2}} = 1

– soit n_{1,1} = n_{2,2} = 0 \Rightarrow - \frac{n_{1,2} n_{2,1}}{\sqrt{n_{1,2} n_{2,1} n_{1,2} n_{2,1}}} = - \frac{n_{1,2} n_{2,1}}{\sqrt{(n_{1,2} n_{2,1}) ^2}} = - \frac{n_{1,2} n_{2,1}}{n_{1,2} n_{2,1}} = - 1

\bullet Annexe théorique:

Nous présentons ici la démonstration: \phi = \sqrt{\frac{\chi ^2}{n}}. Afin de simplifier l’écriture, posons:

n_{1,1} = a, n_{1,2} = b, n_{2,1} = c, n_{2,2} = d

Nous avons donc, pour un tableau de taille 2 \times 2,

\chi ^2 = \sum_{l = 1} ^2 \sum_{c = 1} ^2 \frac{(n_{l,c} - e_{l,c}) ^2}{e_{l_c}} = \frac{(a - e_{1,1}) ^2}{e_{1,1}} + \frac{(b - e_{1,2}) ^2}{e_{1,2}} + \frac{(c - e_{2,1}) ^2}{e_{2,1}} + \frac{(d - e_{2,2}) ^2}{e_{2,2}}

Avec,

e_{1,1} = \frac{(a + b) (a + c)}{n}, e_{1,2} = \frac{(a + b) (b + d)}{n}, e_{2,1} = \frac{(a + c) (c + d)}{n}, e_{2,2} = \frac{(b + d) (c + d)}{n}

Ce qui implique,

\chi ^2 = \frac{(a - \frac{(a + b) (a + c)}{n}) ^2}{\frac{(a + b) (a + c)}{n}} + \frac{(b - \frac{(a + b) (b + d)}{n}) ^2}{\frac{(a + b) (b + d)}{n}} + \frac{(c - \frac{(a + c) (c + d)}{n}) ^2}{\frac{(a + c) (c + d)}{n}} + \frac{(d - \frac{(b + d) (c + d)}{n}) ^2}{\frac{(b + d) (c + d)}{n}}

= \frac{\frac{1}{n ^2}}{\frac{1}{n}} [\frac{(n a - (a + b) (a + c)) ^2}{(a + b) (a + c)} + \frac{(n b - (a + b) (b + d)) ^2}{(a + b) (b + d)} + \frac{(n c - (a + c) (c + d)) ^2}{(a + c) (c + d)} + \frac{(n d - (b + d) (c + d)) ^2}{(b + d) (c + d)}]

Or,

n a - (a + b) (a + c) = (a + b + c + d) a - (a + b) (a + c)

= a ^2 + ab + ac + ad - a ^2 - ac - ba - bc

= ad - bc

n b - (a + b) (b + d) = (a + b + c + d) b - (a + b) (b + d)

= ab + b ^2 + bc + bd - ab - ad - b ^2 - bd

= bc - ad

n c - (a + c) (c + d) = (a + b + c + d) c - (a + c) (c + d)

= ac + bc + c ^2 + cd - ac - ad - c ^2 - cd

= bc - ad

n d - (b + d) (c + d) = (a + b + c + d) d - (b + d) (c + d)

= ad + bd + dc + d ^2 - bc - bd - dc - d ^2

= ad - bd

Par conséquent,

\chi ^2 = \frac{1}{n} [\frac{(ad - bc) ^2}{(a + b) (a + c)} + \frac{(bc - ad) ^2}{(a + b) (b + d)} + \frac{(bc - ad) ^2}{(a + c) (c + d)} + \frac{(ad - bc) ^2}{(b + d) (c + d)}]

= \frac{(ad - bc) ^2}{n} [\frac{1}{(a + b) (a + c)} + \frac{1}{(a + b) (b + d)} + \frac{1}{(a + c) (c + d)} + \frac{1}{(b + d) (c + d)}]

= \frac{(ad - bc) ^2}{n} \frac{(b + d) (c + d) + (a + c) (c + d) + (a + b) (b + d) + (a + c) (a + b)}{(a + c) (a + b) (b + d) (c + d)}

Notons que,

(b + d) (c + d) + (a + c) (c + d) + (a + b) (b + d) + (a + c) (a + b) = bc + bd + dc + d ^2 + ac + ad + c ^2 + cd + ab + ad + b ^2 + bd + a ^2 + ab + ca + bc

= a ^2 + b ^2 + c ^2 + d ^2 + 2 bc + 2 bd + 2 dc + 2 ac + 2 ab + 2 ad

= (a + b + c + d) ^2

= n ^2

Ce dernier résultat nous permet donc de conclure notre démonstration,

\chi ^2 = \frac{(ad - bc) ^2}{n} \frac{n ^2}{(a + c) (a + b) (b + d) (c + d)}

= n \frac{(ad - bc) ^2}{(a + c) (a + b) (b + d) (c + d)}

= n \phi ^2

\Rightarrow \phi = \sqrt{\frac{\chi ^2}{n}}

\bullet Exemple:

Soit l’exemple suivant,

add

Ci-dessous les barplots associés au croisement de X ^1, X ^2.

add

Visuellement, il semble y avoir une relation entre X ^1, X ^2 puisque lorsque X ^1 = "B" alors X ^2 = "A" et globalement, lorsque X ^1 = "A", X ^2 = "B". Quantifions cette association.

Dans un premier temps, construisons le tableau croisé dynamique,

add

Nous avons donc,

\Phi = \frac{3 \times 0 - 7 \times 10}{\sqrt{(3 + 7) \times (10 + 0) \times (3 + 10) \times (7 + 0)}} = \frac{-70}{\sqrt{10 \times 10 \times 13 \times 7}} = - \frac{70}{\sqrt{9100}} = - \frac{70}{95.39392} = - 0.7337994

Avec un score de -0.7337994 nous pouvons conclure en une liaison assez forte entre X ^1 et X ^2.

\bullet Application informatique:

Procédure SAS: http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_freq_a0000000658.htm

Package et fonction R: http://www.personality-project.org/r/html/phi.html

\bullet Bibliographie:

– Analyse de corrélation, étude des dépendances, variables quantitatives de Ricco Rakotomalala

– Comprendre et utiliser les statistiques dans les sciences de la vie de Bruno Falissard