L’ANalyse DE VAriance de Friedman

add

\bullet Présentation:

Publié en 1937 suite aux travaux de Milton Friedman, l’ANalyse de VAriance (ANOVA) de Friedman, qui porte également le nom de test de Friedman ou test de la somme des rangs de Friedman, est une approche non paramétrique permettant de tester si plusieurs variables continues appariées X ^1, \cdots, X ^T sont liées.

L’ANOVA de Friedman est à préférer de l’ANOVA sur mesures repétées, cette dernière accuse une lourde perte de puissance en fonction du type d’approche utilisée (notamment si nous ne nous plaçons pas dans un plan factoriel). Cependant, l’ANOVA de Friedman, qui peut être vue comme une généralisation du test des signes, est équivalente au test de Quade qui demeure plus puissant.

Enfin, l’ANOVA de Friedman se positionne comme une approche sur un plan complet randomisé à blocs, son équivalent pour les plans incomplets randomisés à blocs étant le test de Durbin.

\bullet Le test:

Hypothèse préliminaire: Variables continues appariées.

La première étape est de transformer le tableau de données en un tableau synthétisant le rang R_i ^t de X_i ^t par rapport aux X_i ^1, \cdots X_i ^T de chaque ligne (bloc). La statistique du test de Friedman est alors:

\chi_r ^2 = \frac{12}{n T (T + 1)} \sum_{t = 1} ^T (\sum_{i = 1} ^n R_i ^t ) ^2 - 3 n (T + 1)

Elle suit une loi de Friedman de paramètres (T, n) et l’hypothèse H_0 est: « Il y a indépendance entre les variables appariées / \theta_1 = \cdots = \theta_T« .

A noter, que si n est suffisamment grand, la statistique de test suit alors une loi du \chi ^2 à (T-1) degrés de liberté.

Ci-dessous la table de la loi de Friedman:

add

Ci-dessous la table de la loi du \chi ^2.

addTendance pour rejeter H_0:

Plus la statistique de test \chi_r ^2 est grande et plus nous avons de chance de rejeter H_0, ce qui revient à dire,

\chi_r ^2 = \frac{12}{n T (T + 1)} \sum_{t = 1} ^T (\sum_{i = 1} ^n R_i ^t ) ^2 - 3 n (T + 1) \rightarrow \infty

\Rightarrow \sum_{t = 1} ^T (\sum_{i = 1} ^n R_i ^t ) ^2 \rightarrow \infty

Or, la somme au carré explose si \forall i, \exists t' / R_i ^{t'} > R_i ^1 > \cdots > R_i ^T, soit que pour l’une des mesures, les valeurs prises sont supérieures aux autres mesures. En effet, \sum_{i = 1} ^n max(R) = n \cdot max(R) \geq \sum_{i = 1} ^n R_i ^t.

Ce cas de figure représente alors celui d’une mesure pour lesquels X prend des valeurs plus fortes par rapport aux autres mesures, d’où le rejet de H_0.

\bullet Tendance lorsque n \longrightarrow \infty:

Nous proposons ici de vérifier si l’ANOVA de Friedman est sensible aux grands échantillons ou non.

Le tableau ci-dessous présente l’évolution des p-valeurs associées aux statistiques de test calculées sur plusieurs simulations dans le cas où les distribution sont différentes d’un groupe à l’autre.

add

Globalement, quelque soit la taille de l’échantillon, le test statistique rejette H_0, ce qui est en accords avec nos hypothèses.

Procédons à la même expérience mais cette fois-ci dans un cas où les différentes distributions ne devraient pas être statistiquement différentes. Le tableau ci-dessous présente ces résultats.

add

Jusqu’à N = 100 nous restons cohérent avec nos hypothèses, cependant nous voyons qu’à partir d’un échantillon de taille 1 000, le test rejette H_0 à tort.

Nous en déduisons que l’ANOVA de Friedman est influencée par la taille de l’échantillon.

\bullet Annexe théorique:

Approximation du \chi_r ^2 de Friedman par le \chi ^2 de Pearson:

Posons,

C_i ^t = R_i ^j - \frac{1}{2} (T + 1) \Rightarrow \overline{C ^t} = \frac{1}{n} \sum_{i = 1} ^n C_i ^t

La fonction caractéristique de \overline{C ^t} est,

\phi = E[e ^{i \sum_{t = 1} ^{T - 1} \theta_t \overline{C ^t}}]

= E[e ^{i \sum_{i = 1} ^n \sum_{t = 1} ^{T - 1} \theta_t C_i ^t}]

= (E[e ^{\frac{i}{n} \sum_{t = 1} ^{T - 1} \theta_t C ^t}]) ^n

= \lbrace E[1 + \frac{i}{n} \sum_{t = 1} ^{T - 1} \theta_t C ^t + \frac{i ^2}{2 n ^2} (\sum_{t = 1} ^{T - 1} \theta_t C ^t) ^2 + \frac{1}{n ^3} C] \rbrace ^n

= \lbrace E[1 + \frac{i}{n} \sum_{t = 1} ^{T - 1} \theta_t  C ^t + \frac{i ^2}{2 n ^2} (\sum_{t = 1} ^{T - 1} \theta_t ^2 C ^t) ^2 + 2 \sum_{t = 1} ^{T - 2} \sum_{t' = t + 1} ^{T - 1} \theta_t \theta_{t'} C ^t C ^{t'}) + \frac{1}{n ^3} C] \rbrace ^2

Remarquons que C ^{t'} prend ses valeurs dans [- \frac{1}{2} (T - 1), \frac{1}{2} (T - 1)], et:

E[C ^{t'}] = 0,

E[(C ^{t'}) ^2] = \frac{1}{T} \sum_{C ^{t'} = -\frac{T + 1}{2}} ^{\frac{T - 1}{2}} (C ^{t'}) ^2 = \frac{T ^2 - 1}{12}

E[C ^t C ^{t'}] = - \frac{T + 1}{12}

De plus,

(\sum_{C ^{t'} = - \frac{T - 1}{2}} ^{\frac{T - 1}{2}} C ^{t'}) ^2 = \sum_{C ^{t'} = - \frac{T - 1}{2}} ^{\frac{T - 1}{2}} (C ^{t'}) ^2 + 2 \sum_{C ^{t'} = - \frac{T - 1}{2}} ^{\frac{T - 3}{2}} \sum_{CC ^{t'} = C ^{t'} + 1} ^{\frac{T - 2}{2}} C ^{t'} CC ^{t'} = 0

\Rightarrow T(T - 1) E[C ^{t'} CC ^{t'}] = - T E[(C ^{t'}) ^2] = -\frac{T (T ^2 - 1)}{12}

Par conséquent,

\phi = \lbrace 1 - \frac{1}{2 n ^2} [\frac{T ^2 - 1}{12} \sum_{t = 1} ^{T - 1} \theta_t ^2 - 2 \frac{T + 1}{12} \sum_{t = 1} ^{T - 2} \sum_{t' = t + 1} ^{T - 1} \theta_t \theta_{t'}] + \frac{1}{n ^3} R \rbrace ^n

\approx e ^{- \frac{T ^2 - 1}{24 n} (\sum_{t = 1} ^{T - 1} \theta_t ^2 - \frac{2}{T - 1} \sum_{t = 1} ^{T - 2} \sum_{t' = t + 1} ^{T - 1} \theta_t \theta_{t'})}

Qui n’est autre que la fonction caractéristique de la loi multinormale. Nous avons alors (avec C constante),

C e ^{- \frac{1}{2} \frac{12 n}{T (T + 1)}(2 \sum_{t = 1} ^{T - 1} \overline{C ^{t'}} ^2 + 2 \sum_{t = 1} ^{T - 2} \sum_{t' = t + 1} ^{T - 1} \overline{C ^{t'}} \overline{CC ^{t'}})} \partial \overline{CC ^1} \cdots \partial \overline{CC ^{T-1}}

Or,

\sum_{t = 1} ^T CC ^t = 0 \Rightarrow \overline{CC ^T} = - \sum_{t = 1} ^{T-1} CC ^t

Et,

\overline{CC ^T} ^2 = (\sum_{t = 1} ^{T - 1} \overline{CC ^t}) ^2 = \sum_{t = 1} ^{T - 1} \overline{CC ^t} ^2 + 2 \sum_{t = 1} ^{T - 2} \sum_{t' = t + 1} ^{T-1} \overline{CC ^t} \overline{CC ^{t'}}

\Rightarrow C e ^{- \frac{1}{2} \lbrace \frac{12 n}{T (T + 1)} \sum_{t = 1} ^T \overline{CC ^t} ^2 \rbrace} \partial \overline{CC ^1} \cdots \partial \overline{CC ^{T-1}} = C e ^{- \frac{1}{2} \chi_r ^2} \partial \overline{CC ^1} \cdots \partial \overline{CC ^{T-1}}

De ce résultat nous pouvons conclure que lorsque n croît, \chi_r ^2 \approx \chi ^2 à T - 1 degrés de liberté.

Espérance du \chi_r ^2:

Nous avons,

\chi_r ^2 = \frac{12 n}{T (T + 1)} \sum_{t = 1} ^T \overline{CC ^t} ^2 = \frac{12 n}{T (T + 1)} \frac{1}{n ^2} \sum_{t = 1} ^T (\sum_{i = 1} ^n CC_i ^t) ^2

Comme \sum_{t = 1} ^T \sum_{i = 1} ^n (CC_i ^t) ^2 = \frac{n T (T ^2 - 1)}{12}, nous avons,

\chi_r ^2 = (T - 1) + \frac{24}{T (T + 1) n} \sum_{i = 1} ^{n - 1} \sum_{i' = i + 1} ^{n} \sum_{t = 1} ^T CC_i ^t CC_{i'} ^t

Par conséquent,

E[\chi_r ^2] = (T - 1) + \frac{24}{T (T + 1) n} \sum_{i = 1} ^{n - 1} \sum_{i' = i + 1} ^n \sum_{t = 1} ^T E[CC_i ^t CC_{i'} ^t]

= (T - 1) + \frac{24}{T (T + 1) n} \sum_{i = 1} ^{n - 1} \sum_{i' = i + 1} ^n 0

\Rightarrow E[\chi_r ^2] = T - 1

Variance du \chi_r ^2:

Partons de,

\chi_r ^2 - E[\chi_r ^2] = \frac{24}{T (T + 1) n} \sum_{i = 1} ^{n - 1} \sum_{i' = i + 1} ^n \sum_{t = 1} ^T CC_i ^t CC_{i'} ^t

Or,

E[\sum_{i = 1} ^{n - 1} \sum_{i' = i + 1} ^n \sum_{t = 1} ^T CC_i ^t CC_{i'} ^t] ^2 = \sum_{i = 1} ^{n - 1} \sum_{i' = i + 1} ^n E[\sum_{t = 1} ^T CC_i ^t CC_{i'} ^t]

Avec,

E[\sum_{t = 1} ^T CC_i ^t CC_{i'} ^t] ^2 = E[ \sum_{t = 1} ^T (CC_i ^t) ^2 (CC_{i'} ^t) ^2 + 2 \sum_{t = 1} ^T \sum_{t' = t + 1} ^T CC_i ^t CC_{i'} ^t CC_i ^{t'} CC_{i'} ^{t'}]

= \sum_{t = 1} ^T E[(CC_i ^t) ^2] E[(CC_{i'} ^t) ^2] + 2 \sum_{t = 1} ^T \sum_{t' = t + 1} ^T E[CC_i ^t CC_i ^{t'}] E[CC_{i'} ^t CC_{i'} ^{t'}]

= \frac{n (n - 1)}{2} \frac{T ^2 (T - 1) (T + 1) ^2}{12 ^2}

En multipliant par (\frac{T (T + 1) n}{24}) ^{-2} nous trouvons,

\sigma ^2 = 2 \frac{n - 1}{n} (T - 1)

\bullet Exemple:

Soit les cinq échantillons appariés X ^1, X^2, X ^3, X ^4, X ^5 suivants.

add

Ci-dessous, les boxplots associés à (X ^1, X ^2, X ^3, X ^4, X ^5).

add

Les boxplots montrent que X varie énormément en fonction du temps t \in \lbrace 1, \cdots, 5 \rbrace. Prouvons-le statistiquement.

Dans un premier temps, nous déterminons le tableau des rangs en ligne associés à X ^1, X ^2, X ^3, X ^4, X ^5,

add

Nous pouvons calculer les différentes sommes des rangs,

\sum_{i = 1} ^{20} R_i ^{t_1} = 65 \Rightarrow (\sum_{i = 1} ^{20} R_i ^{t_1}) ^2 = 4225

\sum_{i = 1} ^{20} R_i ^{t_2} = 46 \Rightarrow (\sum_{i = 1} ^{20} R_i ^{t_2}) ^2 = 2116

\sum_{i = 1} ^{20} R_i ^{t_3} = 43 \Rightarrow (\sum_{i = 1} ^{20} R_i ^{t_3}) ^2 = 1849

\sum_{i = 1} ^{20} R_i ^{t_4} = 75 \Rightarrow (\sum_{i = 1} ^{20} R_i ^{t_4}) ^2 = 5625

\sum_{i = 1} ^{20} R_i ^{t_5} = 71 \Rightarrow (\sum_{i = 1} ^{20} R_i ^{t_5}) ^2 = 5041

Nous avons alors,

\chi_r ^2 = \frac{12}{20 \times 5 \times (5 + 1)} \times \sum_{t = 1} ^5 (\sum_{i = 1} ^{20} R_i ^{t_k}) ^2 - 3 \times 20 \times (5 + 1)

= \frac{12}{600} \times [(\sum_{i = 1} ^{20} R_i ^{t_1}) ^2 + (\sum_{i = 1} ^{20} R_i ^{t_2}) ^2 + (\sum_{i = 1} ^{20} R_i ^{t_3}) ^2 + (\sum_{i = 1} ^{20} R_i ^{t_4}) ^2 + (\sum_{i = 1} ^{20} R_i ^{t_5}) ^2] - 360

 = 0.05 \times [4225 + 2116 + 1849 + 5625 + 5041] - 360

= 0.02 \times 18856 - 360

= 377.12 - 360

= 17.12

Si nous reportons cette statistique de test à la table du \chi ^2 pour 5 - 1 = 4 degrés de liberté, nous obtenons une p-valeur de 0.001835 < 5 \%. Nous en concluons que nous pouvons rejeter H_0 et qu’il y a bien un effet du temps sur X.

\bullet Application informatique:

Procédure SAS: https://support.sas.com/documentation/onlinedoc/stat/ex_code/121/friedman.html

Package et fonction R: https://stat.ethz.ch/R-manual/R-devel/library/stats/html/friedman.test.html

\bullet Bibliographie:

– The use of ranks to avoid the assumption of normality implicit in the analysis of variance de Milton Friedmann

– Comparaison de populations. Tests non paramétrique de Ricco Rakotomalala

– Statistique pour petits échantillons Frédéric Bertrand et Myriam Maumy