Le coefficient Kappa de Cohen

add\bullet Présentation:

Publié en 1960 par Jacob Cohen, le coefficient \kappa de Cohen est une mesure permettant d’évaluer le taux de concordance inter-observateurs pour deux variables qualitatives appariées X ^{t_1}, X ^{t_2} à L \geq 2 modalités. De plus, il présente une alternative intéressante aux tests différentiels pour données appariées en n’étant pas influencé par les grands échantillons.

Il faut noter que la concordance est un concept bien différent de la liaison. Dans le second cas nous cherchons à mesurer la relation entre deux variables tandis que dans le premier il est question de mesurer la concordance entre observations par rapport aux différents temps.

A noter que t_1, t_2 sont, plus familièrement, appelés juges (rater).

\bullet Le coefficient:

Hypothèse préliminaire: Variables qualitatives appariées à L modalités.

Afin d’avoir une meilleure visualisation de la formule du coefficient \kappa de Cohen, passons par le tableau de contingence construit à partir du croisement des deux variables appariées X ^{t_1}, X ^{t_2}:

addNous noterons n_{i,j} l’effectif croisé des individus ayant choisi la modalité i à t_1 et la modalité j à t_2 parmi les L modalités présentes.

La formule du coefficient \kappa de Cohen est alors:

\kappa = \frac{Pr(a) - Pr(e)}{1 - Pr(e)}

Où:

– Pr(a) = \frac{\sum_{k = 1} ^L n_{k,k}}{n}, le pourcentage d’individus qui ont le même avis à t_1 et t_2

Pr(e) = \sum_{k = 1} ^L \frac{\sum_{i = 1} ^L n_{i,k}}{n} \times \frac{\sum_{j = 1} ^L n_{k,j}}{n}, la probabilité d’un accords aléatoire entre t_1 et t_2

Le coefficient \kappa de Cohen est compris dans l’intervalle [-1; 1]. Plus sa valeur tend vers 1 et plus fort est l’accord entre les deux temps. Le tableau ci-dessous, extrait de Wikipédia et lui-même basé sur l’ordre de grandeur de Landis et Koch, permet d’attribuer une échelle sur l’intensité de l’accord traduit par le coefficient \kappa:

add

Le coefficient de \kappa pondéré

Une version pondérée du coefficient \kappa de Cohen, permettant de paramétrer l’importance à l’accord ou au désaccord, existe également. Sa formule est:

\kappa_{W} = \frac{\sum_{i = 1} ^L \sum_{j = 1} ^L w_{i,j} \cdot p_{i,j} - \sum_{i = 1} ^L \sum_{j = 1} ^L w_{i,j} \cdot p_{i,.} \cdot p_{.,j}}{1 - \sum_{i = } ^L \sum_{j = 1} ^L w_{i,j} \cdot p_{i,.} \cdot p_{.,j}}

Où les w_{i,j} représente le poids attribué à la cellule (i,j) du tableau croisé.

Deux techniques de détermination de la matrice des pondérations W = (w_{i,j}) existent (outre celle visant à insérer soit-même les poids désirés):

– détermination par système linéaire, w_{i,j} = 1 - \frac{|i - j|}{L - 1}

– détermination par système quadratique, w_{i,j} = 1 - \frac{(i - j) ^2}{(L - 1) ^2}

Le coefficient \kappa maximal:

Dans certains cas, plutôt que de comparer la valeur du \kappa de Cohen obtenue à la table de Koch et Landis, il convient de calculer la valeur théorique maximale atteignable par le coefficient et de la comparer à celle obtenue sur les données réelles. Sa formule est:

\kappa_{max} = \frac{\sum_{i = 1} ^L min (max(P_{i,.}), max(P_{.,i}) - \sum_{i = 1} ^L max(P_{i,.}) \times max(P_{.,i})}{1 - \sum_{i = 1} ^L max(P_{i,.}) \times max(P_{.,i})}

Tendance du coefficient \kappa de Cohen:

Finalement, le coefficient \kappa = 1 quand:

\kappa = \frac{Pr(a) - Pr(e)}{1 - Pr(e)} = 1 \Leftrightarrow Pr(a) - Pr(e) = 1 - Pr(e) \Leftrightarrow Pr(a) = 1

Autrement dit, quand les n_{i,j} \longrightarrow 0, \forall i \neq j. Ce résultat traduit le lien relatif entre Pr(a) et Pr(e): lorsque l’un tend vers 1 l’autre tend vers 0 et inversement. En effet, la déduction est assez logique, plus les observateurs s’accordent entre les deux temps et plus le taux de désaccord diminue.

\bullet Annexe théorique: 

Nous présentons ici le calcul de l’erreur-type du coefficient \kappa de Cohen de formule,

\kappa = \frac{\theta_1 - \theta_2}{1 - \theta_2}

\theta_1 = \sum_i ^L p_{i,i} et \theta_2 = \sum_{i = 1} ^L p_{i,.} p_{.,i}. En définissant \delta le symbole de Kroneker, nous avons donc,

\frac{\partial \theta_1}{\partial p_{I,J}} = \delta_{I,J}

Et,

\frac{\partial \theta_2}{\partial p_{I,J}} = \sum_{i = 1} ^L \frac{\partial}{\partial p_{I,J}} (\sum_{k_1 = 1} ^L p_{i,k_1}) (\sum_{k_2 = 1} ^L p_{k_2,i})

= \sum_{i = 1} ^L (\sum_{k_2 = 1} ^L p_{k_2,i} \sum_{k_1 = 1} ^L \frac{\partial}{\partial p_{I,J}} p_{i,k_1}) + \sum_{i = 1} ^L (\sum_{k_1 = 1} ^L p_{i,k_1} \sum_{k_2 = 1} ^L \frac{\partial}{\partial p_{I,J}} p_{k_2,j})

= \sum_{i = 1} ^L (\sum_{k_2 = 1} ^L p_{k_2,i}) \delta_{I,j} + \sum_{i = 1} ^L (\sum_{k_1 = 1} ^L p_{i,k_1}) \delta_{J,i}

 = p_{.,I} + p_{J,.}

Les formes des dérivées secondes nous permettent de développer la forme de la matrice de variance-covariance \Sigma,

\Sigma_{I,J} = \frac{1}{(1 - \theta_2) ^2} \cdot [(1 - \theta_2) \cdot \frac{\partial (\theta_1 - \theta_2)}{\partial p_{I,J}} + (\theta_1 - \theta_2) \cdot \frac{\partial \theta_2}{\partial p_{I,J}}]

= \frac{1}{(1 - \theta_2) ^2} \cdot [\delta_{I,J} \cdot (1 - \theta_2) + (\theta_1 - 1) \cdot (p_{.,I} + p_{J,.})]

Dés lors, en posant \theta_3 = \sum_{I = 1} ^L p_{I,I} ^cdot (p_{I,.} + p_{.,I} et \theta_4 = \sum_{I = 1} ^L \sum_{J = 1} ^L p_{I,J} \cdot (p_{.,I} + p_{J,.}) ^2, nous avons:

\sum_{I = 1} ^L \sum_{J = 1} ^L p_{I,L} \Sigma_{I,J} ^2 = \frac{1}{(1 - \theta_2) ^4} \cdot [\theta_1 \cdot (1 - \theta_2) ^2 + 2 \theta_3 \cdot (1 - \theta_2) \cdot (1\theta_1 - 1) + \theta_4 \cdot (1 - \theta_1) ^2]

Et,

(\sum_{I = 1} ^L \sum_{J = 1} ^L p_{I,J} \cdot \Sigma_{I,J}) ^2 = \frac{1}{(1 - \theta_2) ^4} \cdot (\theta_1 ^2 \cdot (1 - \theta_2) ^2 + 4 \theta_1 \cdot (1 - \theta_2) \cdot (\theta_1 - 1) \cdot \theta_2 + 4 \theta_2 ^2 \cdot (1 - \theta_1) ^2]

En effet,

\sum_{I = 1} ^L \sum_{J = 1} ^L p_{I,J} \cdot (p_{.,I} + p_{J,.}) = 2 \theta_2

Ainsi,

(Erreur-type(\kappa)) ^2 = \frac{\theta_1 \cdot (1 - \theta_1)}{n \cdot (1 - \theta_2) ^2} + \frac{2 (\theta_1 - 1) \cdot (\theta_3 - 2 \theta_1 \cdot \theta_2)}{n \cdot (1 - \theta_2) ^3} + \frac{(\theta_1 - 1) ^2 (\theta_4 - 4 \theta_2 ^2)}{n \cdot (1 - \theta_2) ^4}

= \frac{1}{n \cdot (1 - \theta_2) ^2} \cdot [\theta_2 \cdot (1 - \theta_2) - \theta_3]

, en remarquant que \theta_4 - 2 \theta_3 = 2 \theta_2 ^2 - \theta_3.

\bullet Exemple:

Soit les deux variables appariées X_{t_1}, X_{t_2} suivantes:

addL’histogramme superposé ci-dessous montre que plus de la moitié des observations changent de modalités entre les deux temps  t_1 et t_2.

addCommençons par construire le tableau des effectifs croisés entre les deux variables appariées:

addNous avons donc 20 observations, si nous décomposons la formule de calcul du coefficient \kappa de Cohen nous trouvons:

Pr(a) = \frac{2 + 5 + 2}{20} = 0.45

Pr(e) = \frac{2 + 1 + 4}{20} \times \frac{2 +3 +1}{20} + \frac{3 + 5 + 0}{20} \times \frac{1 + 5 +2}{20} + \frac{1 + 2 + 2}{20} \times \frac{4 + 0 +2}{20} = 0.34

Et donc:

\kappa = \frac{0.45 - 0.34}{1 - 0.34} = 0.1666666

En nous reportant à la table de Landis et Koch nous en concluant quand à un accord très faible entre les observateurs des deux temps.

\bullet Application informatique:

Procédure SAShttp://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_freq_sect034.html

Package et fonction R: http://www.personality-project.org/r/html/kappa.html

\bullet Bibliographie:

– A coefficient of agreement for nominal scales de Jacob Cohen

– Probabilité, analyse des données et statistique de Gilbert Saporta

– Accord entre observateurs et coefficient Kappa de Cohen de Sophie Vanbelle

– le site kappa.chez-alice.fr/kappa-2juges-pond.html

– The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements de Julius Sim et Chris C. Wright