Le coefficient Kappa de Fleiss

add\bullet Présentation:

Publié en 1971 par Joseph L. Fleiss, le coefficient \kappa de Fleiss est une mesure permettant d’évaluer le taux de concordance inter-observateurs entre plusieurs variables qualitatives de mesures X ^{t_1}, \cdots, X ^{t_T}, respectivement, à L \geq 2 modalités (notons que chacune de nos L variables doivent avoir le même nombre de modalités). De plus, il présente une alternative intéressante aux tests différentiels pour données appariées en n’étant pas influencé par les grands échantillons.

Il faut noter que la concordance est un concept bien différent de la liaison. Dans le second cas nous cherchons à mesurer la relation entre deux variables tandis que dans le premier il est question de mesurer la concordance entre observations par rapport aux différents temps.

A noter que t_1, \cdots, t_T sont, plus familièrement, appelés les juges (raters). Le coefficient \kappa de Fleiss peut-être vu comme une généralisation du score \Phi de Scott.

\bullet Le coefficient:

Hypothèse préliminaire: Variables qualitatives appariées à L modalités chacune.

Le problème peut se présenter de deux manières intimement liées. Partons de l’une d’elle pour les présenter. Soit les variables qualitatives appariées X ^{t_1}, \cdots, X ^{t_T}, nous pouvons alors construire à partir de cet échantillon le tableau suivant:

add

Nous noterons C_{i,k} le nombre de fois où l’observation i a choisi (ou a été jugé) la modalité k parmi les L modalités disponibles sur les différents temps T.

La formule du coefficient \kappa de Fleiss est alors:

\kappa = \frac{\overline{P} - \overline{P_e}}{1 - \overline{P_e}}

Où:

– \overline{P} = \frac{1}{n \cdot T \cdot (T - 1)} \sum_{i = 1} ^n \sum_{k = 1} ^L C_{i,k} ^2 - \frac{1}{T - 1}

\overline{P_e} = (\frac{1}{n \cdot T}) ^2 \sum_{k = 1} ^L (\sum_{i = 1} ^n C_{i,k}) ^2

Le coefficient \kappa de Fleiss est compris dans l’intervalle [-\infty ; 1]. Plus sa valeur tend vers 1 et plus fort est l’accord entre les deux temps. Le tableau ci-dessous, extrait de Wikipédia et lui-même basé sur l’ordre de grandeur de Landis et Koch, permet d’attribuer une échelle sur l’intensité de l’accord traduit par le coefficient \kappa:

add

Tendance du coefficient \kappa de Cohen:

Comme nous l’avons précisé, si \kappa = 1 alors l’accord inter-observateurs est total. Par conséquent,

\kappa = \frac{\overline{P} - \overline{P_e}}{1 - \overline{P_e}} = 1 \Rightarrow \overline{P} - \overline{P_e} = 1 - \overline{P_e} \Rightarrow \overline{P} = 1

\Rightarrow \frac{1}{n \cdot T \cdot (T - 1)} \sum_{i = 1} ^n \sum_{k = 1} ^L C_{i,k} ^2 - \frac{1}{T - 1} = 1

\Rightarrow \sum_{i = 1} ^n \sum_{k = 1} ^L (C_{i,k} ^2) = n \cdot T \cdot (T - 1) + n \cdot T

\Rightarrow \sum_{i = 1} ^n \sum_{k = 1} ^L (C_{i,k} ^2) = n \cdot T ^2

\Rightarrow \forall i, \exists ! k \mbox{ tel que } C_{i,k} = T \mbox{ et } \forall (i', k') \neq (i, k), C_{i', k'} = 0

Soit, pour chaque observation, tous les juges les ont classées dans la même modalité ce qui revient à dire que tous les juges sont d’accords.

\bullet Annexe théorique:

Nous présentons la démonstration de l’erreur standard du coefficient \kappa de Fleiss.

Nous avons,

V(\kappa) = \frac{\sum_{i = 1} ^n V(\sum_{j = 1} ^L C_{i,j} ^2)}{n ^2 T ^2 (T - 1) ^2 (1 - \sum_{j = 1} ^L p_j ^2) ^2}

Où, p_j = \frac{1}{T \cdot n} \sum_{i = 1} ^n C_{i,j}

Calculons les différents termes. Ainsi, nous avons,

V(\sum_{j = 1} ^L C_{i,j} ^2) = E[\sum_{j = 1} ^L C_{i,j} ^2] ^2 - E ^2 [\sum_{j = 1 ^L} C_{i,j} ^2]

= E[\sum_{j = 1} ^L C_{i,j} ^4] + E[\sum \sum_{j \neq m} C_{i,j} ^2 C_{i,m} ^2] - (E[\sum_j C_{i,j} ^2) ^2

Les moments d’intérêt ont pour formule:

E[\sum_{j = 1} ^L C_{i,j} ^4] =

T + T \cdot (T - 1) \times [7 \sum_{j = 1} ^L p_j ^2 + 6 (T - 2) \cdot \sum_{j = 1} ^L p_j ^3 + (n - 2) \cdot (n - 3) \sum_{j = 1} ^L p_j ^4]

E[\sum \sum_{j \neq m} C_{i,j} ^2 C_{i,m} ^2] =

T \cdot (T - 1) + T \cdot (T - 1)[-2 T - 5) \sum_{j = 1} p_j ^2 + (n - 2) \cdot (n - 3) \cdot (\sum_{j = 1} ^L p_j ^2) ^2 - 2 (T - 2) \sum_{j = 1} ^T p_j ^2 - (T - 2) \cdot (T - 3) \sum_{j = 1} ^L p_j ^4]

(E[\sum_{j = 1} ^L C_{i,j}]) ^2 =

T ^2 + T \cdot (T - 1) \times (2 T \sum_{j = 1} ^L p_j ^2 + T \cdot (T - 1) \cdot (\sum_{j = 1} ^L p_j ^2) ^2]

Par conséquent,

V(\sum_{j = 1} ^L C{i,j} ^2) = 2 T \cdot (T - 1) \cdot (\sum_{j = 1} ^L p_j ^2 - (2 T - 3) \cdot (\sum_{j = 1} ^L p_j ^2) ^2 + 2 (T - 2) \cdot \sum_{j = 1} ^L p_j ^3]

Comme \sum_{i = 1} ^n V(\sum_{j = 1} ^L C_{i,j} ^2) = n \cdot V(\sum_{j = 1} ^L C_{i,j} ^2), nous avons:

V(\kappa) = \frac{2}{n \cdot T \cdot (T - 1)} \times \frac{\sum_{j = 1} ^L p_j ^2 - (2T - 3) \cdot (\sum_{j = 1} ^L p_j ^2) ^2 + 2(T - 2) \sum_{j = 1} ^L p_j ^3}{(1 - \sum_{j = 1} ^L p_j ^2) ^2}

\bullet Exemple:

Soit l’échantillon ci-dessous:

addNous avons 20 observations, classés à 5 temps différents selon les modalités 1 à 3.

L’analyse des correspondances multiples sur les variables X ^{t_1}, \cdots X ^{t _5} permet de voir la tendance globale de l’accord entre les différents juges.

addSi tous les juges étaient d’accord, nous devrions avoir les modalités 1 de chaque variable X ^{t_1}, \cdots, X ^{t_5} regroupées ensemble, de même pour les modalités 2 et 3 marquant ainsi le fait que chaque observateur a opté pour la même modalité pour chacune des observations.

Dans notre exemple nous voyons que ce n’est pas le cas, seul le choix en modalité 3 semble avoir fait l’unanimité pour les juges N° 1, 3 et 4. Les juges N° 2 et 5 semblent se rejoindre dans leur choix des observations en modalité 2. Enfin, les juges N° 1 et 4 sont d’accords pour la modalité 1.

Nous nous attendons, par conséquent, à une coefficient \kappa de Fleiss assez faible. La table ci-dessous est la table transformée à partir de celle de base mettant en évidence, pour chaque observation, le vote de chacun des juges.

addUne fois ce tableau érigé, nous pouvons calculer le coefficient \kappa de Fleiss. Par exemple, pour l’observation N°1:

P_1 = \frac{1}{T \cdot (T - 1)} (\sum_{j = 1} ^L (C_{1,j} ^2) - T) = \frac{1}{ 5 \times 4} (4 ^2 + 1 ^2 + 0 ^2 - 5) = \frac{12}{20} = 0.6

En procédant à ce calcul pour les 20, nous obtenons \overline{P} = \frac{1}{n} \sum{i = } ^n P_i = \frac{7.6}{20} = 0.38

Il nous reste plus qu’à calculer \overline{P_e}. Pour le détail du calcul, nous nous limiterons à un exemple,

p_1 = \frac{1}{(n \cdot T) ^2} (\sum_{i = 1 ^n} C_{i,1}) ^2 = \frac{1}{(4 \times 5) ^2} \times (4 + 2 + 3 + \cdots + 1 + 0 + 0) ^2 = \frac{1225}{10000} = 0.1225

Nous obtenons alors, après calcul de chacun des p_j,

\overline{P_e} = \sum_{j = 1} ^3 p_j = 0.1225 + 0.09 + 0.1225 = 0.335

Ainsi, le coefficient \kappa de Fleiss vaut:

\kappa = \frac{\overline{P} - \overline{P_e}}{1 - \overline{P_e}} = \frac{0.38 - 0.335}{1 - 0.335} = \frac{0.045}{0.665} = 0.06766917

, qui est très faible, confirmant donc la conclusion que nous avions pu tirer à partir de l’analyse des correspondances multiples.

\bullet Application informatique:

Procédure SAShttp://www2.sas.com/proceedings/sugi30/155-30.pdf

Package et fonction R: http://cran.r-project.org/web/packages/irr/irr.pdf

\bullet Bibliographie:

– Measuring nominal scale agreement among many raters de Joseph L. Fleiss

– Etude des dépendances – variables qualitatives. Tableau de contingence et mesures d’association de Ricco Rakotomolala

– The reliability of dichotomous judgements: unequal numbers of judges per subject de Joseph L. Fleiss et Jack Cuzick