Le coefficient de monotonicité de Guttman

add.png

\bullet Présentation:

Publié par Louis Guttman en 1968, le coefficient de monotonicité de Guttman, qu’il est possible de trouver également sous l’appellation anglaise Guttman’s weak monotonicity coefficient, est une approche non paramétrique permettant de mesurer la corrélation entre deux variables continues ou ordinales appariées X ^1, X ^2.

Notons que l’aspect apparié des deux variables est abusif, le coefficient s’applique aussi bien à des variables temporelles qu’à des variables non appariées. Il serait plus concret de parler de variables conjointes.

Le principal intérêt du coefficient de Guttman étant de permettre la détection de relations monotones croissantes ou décroissantes contrairement aux approches basées sur l’aspect linéaire de la relation entre deux variables.

\bullet Le test:

Hypothèse préliminaire: Variables continues.

Pour toutes paires d’observations i_1, i_2, la formule du coefficient de monotonicité de Guttman est alors:

\mu_2 = \frac{\sum_{i_1 = 1} ^n \sum_{i_2 = 1} ^n (X_{i_2} ^1 - X_{i_1} ^1) \cdot (X_{i_2} ^2 - X_{i_1} ^2)}{\sum_{i_1 = 1} ^n \sum_{i_2 = 1} ^n |X_{i_2} ^1 - X_{i_1} ^1| \cdot |X_{i_2} ^2 - X_{i_1} ^2|}

Il varie dans l’intervalle [-1,1]. Lorsqu’il s’approche de la borne inférieure c’est que nous sommes en présence d’une corrélation monotone décroissante et monotone croissante s’il s’approche de la borne supérieure. Un coefficient de monotonicité de Guttman proche de 0 implique l’absence de corrélation entre les deux variables.

Le coefficient de monotonicité de Guttman présente l’intérêt de pouvoir détecter les liaisons monotones contrairement à celui de Bravais-Pearson. La notion de liaison monotone est représentée dans la série de figure ci-dessous:

FIGURE67

Variation du coefficient de monotonicité de Guttman:

Deux cas de figure sont à étudier, celui où\mu_2 = 0 et | \mu_2 | = 1.

Pour la première situation, nous avons,

\mu_2 = 0

\Rightarrow \frac{\sum_{i_1} \sum_{i_2} (X_{i_2} ^1 - X_{i_1} ^1) (X_{i_2} ^2 - X_{i_1} ^2)}{\sum_{i_1} \sum_{i_2} | X_{i_2} ^1 - X_{i_1} ^1 | | X_{i_2} ^2 - X_{i_1} ^2 |} = 0

\Rightarrow \sum_{i_1} \sum_{i_2} (X_{i_2} ^1 - X_{i_1} ^1) (X_{i_2} ^2 - X_{i_1} ^2) = 0

\Rightarrow \forall i_1, i_2, X_{i_2} ^1 = X_{i_1} ^1 et X_{i_2} ^2 = X_{i_1} ^2 ou \sum_{i_1 = 1} ^{\frac{n}{2}} \sum_{i_2 = 1} ^{\frac{n}{2}} (X_{i_2} ^1 - X_{i_1} ^1) (X_{i_2} ^2 - X_{i_1} ^2) = \sum_{i_1 = \frac{n}{2}} ^n \sum_{i_2 = \frac{n}{2}} ^n (X_{i_2} ^1 - X_{i_1} ^1) (X_{i_2} ^2 - X_{i_1} ^2)

Le premier cas n’est pas d’intérêt car il implique que la distribution de X ^1 et X ^2 est quasi-constante. Le second cas implique que nous sommes dans la configuration d’une distribution conjointe parabolique et donc qu’il n’y a pas de relation croissante ou décroissante monotone (nous pourrions extrapoler en supposant que la somme s’annule de manière périodique et donc que nous serions dans la configuration d’une distribution conjointe sinusoïdale).

Pour la seconde situation, nous avons,

| \mu_2 | = 1

\Rightarrow | \frac{\sum_{i_1} \sum_{i_2} (X_{i_2} ^1 - X_{i_1} ^1) (X_{i_2} ^2 - X_{i_1} ^2)}{\sum_{i_1} \sum_{i_2} | X_{i_2} ^1 - X_{i_1} ^1 | | X_{i_2} ^2 - X_{i_1} ^2 |} | = 1

\Rightarrow \frac{| \sum_{i_1} \sum_{i_2} (X_{i_2} ^1 - X_{i_1} ^1) (X_{i_2} ^2 - X_{i_1} ^2) |}{\sum_{i_1} \sum_{i_2} | X_{i_2} ^1 - X_{i_1} ^1 | | X_{i_2} ^2 - X_{i_1} ^2 |} = 1

Or, pour le numérateur, l’inégalité triangulaire nous donne,

| \sum_{i_1} \sum_{i_2} (X_{i_2} ^1 - X_{i_1} ^1) (X_{i_2} ^2 - X_{i_1} ^2) | \leq \sum_{i_1} \sum_{i_2} | X_{i_2} ^1 - X_{i_1} ^1 | | X_{i_2} ^2 - X_{i_1} ^2 |

Si l’égalité est respectée cela implique que \mu_2 = 1. Cela impliquerait que,

\forall i_1, i_2, (X_{i_2} ^1 - X_{i_1} ^1) = | X_{i_2} ^1 - X_{i_1} ^1 | > 0

Et,

\forall i_1, i_2, (X_{i_2} ^2 - X_{i_1} ^2) = | X_{i_2} ^2 - X_{i_1} ^2 | > 0

Soit,

\forall i_1, i_2, X_{i_2} ^1 > X_{i_1} ^1 et X_{i_2} ^2 > X_{i_1} ^2

Nous retrouvons la situation où X ^1, X ^2 sont croissants ou décroissants. La caractéristique de monotonicité est alors visible car finalement le coefficient se concentre sur l’ordre des données et pas sur la distance entre les différentes observations.

\bullet Annexe théorique: 

Nous présentons ici une esquisse de la démonstration de l’inégalité triangulaire.

Trivialement nous avons,

\forall j_1 < j_2, X ^{j_1} X ^{j_2} \leq | X ^{j_1} X ^{j_2}|

\Rightarrow \forall j_1 < j_2, 2 X ^{j_1} X ^{j_2} \leq 2 | X ^{j_1} X ^{j_2} |

\Rightarrow 2 \sum_{j_1 < j_2} X ^{j_1} X ^{j_2} \leq 2 \sum_{j_1 < j_2} X ^{j_1} X ^{j_2}

\Rightarrow \prod_j (X ^j) ^2 + 2 \sum_{j_1 < j_2} X ^{j_1} X ^{j_2} \leq \prod_j (X ^j) ^2 + 2 \sum_{j_1 < j_2} | X ^{j_1} X ^{j_2} |

\Rightarrow \prod_j (X ^j) ^2 + 2 \sum_{j_1 < j_2} X ^{j_1} X ^{j_2} \leq \prod_j | X ^j | ^2 + 2 \sum_{j_1 < j_2} | X ^{j_1} X ^{j_2} |

\Rightarrow (\sum_j X ^j) ^2 \leq (\sum_j |X ^j|) ^2

\Rightarrow | \sum_j X ^j | ^2 \leq (\sum_j |X ^j|) ^2

\Rightarrow | \sum_j X ^j | \leq \sum_j |X ^j|

\bullet Exemple:

Soit les deux variables appariées X ^1, X ^2 ci-dessous,

add

Ci-dessous le nuage de point associé au croisement des deux échantillons:

addPar interprétation, la relation entre nos deux variables ne semblent pas monotone croissante ou décroissante. Quantifions-là.

Commençons par le calcul du numérateur,

\sum_{i_1 = 1} ^n \sum_{i_2 = 1} ^n (X_{i_2} ^1 - X_{i_1} ^1) \times (X_{i_2} ^2 - X_{i_1} ^2) = (3.1101 - 3.1101) \times (0.8970 - 0.8970) + \cdots + (3.1101 - 10.0826) \times (0.8970 - 19.8936) + \cdots + (10.0826 - 3.1101 ) \times (19.8936 - 0.8970) + \cdots + (10.0826 - 10.0826) \times (19.8936 - 19.8936)

= 3462.39

Pour le dénominateur,

\sum_{i_1 = 1} ^n \sum_{i_2 = 1} ^n (X_{i_1} ^1 - X_{i_2} ^1) \times (X_{i_1} ^2 - X_{i_2} ^2) = | 3.1101 - 3.1101 | \times | 0.8970 - 0.8970 | + \cdots + | 3.1101 - 10.0826 | \times | 0.8970 - 19.8936 | + \cdots + | 10.0826 - 3.1101 | \times | 19.8936 - 0.8970 | + \cdots + | 10.0826 - 10.0826 | \times | 19.8936 - 19.8936 |

= 9698.118

Nous obtenons alors,

\mu_2 = \frac{3462.39}{9698.118} = 0.3570167

La valeur obtenue nous permet de conclure en une absence de relation entre X ^1, X ^2.

\bullet Application informatique:

Procédure SAS:

%macro Guttman_monotonicity(X = ,Y = );

/* Suppression des données manquantes */
data calcul;
merge X Y;
if X ne . and Y ne .;
run;

/* Calcul de l’effectif total */
proc sql noprint;
select count(*) into: n from calcul;
quit;

/* Initialisation du numérateur et du dénominateur */
%let num = 0;
%let den = 0;

/* Calcul du numérateur et du dénominateur par procédure itérative */
%do i1 = 1 %to &n.;
%do i2 = 1 %to &n.;

/* Conservation de la valeur de X à l’itération i1 */
data _null_;
set calcul;
if _n_ = &i1.;
call symputx(« a »,&X.);
run;

/* Conservation de la valeur de X à l’itération i2 */
data _null_;
set calcul;
if _n_ = &i2.;
call symputx(« aa »,&X.);
run;

/* Conservation de la valeur de Y à l’itération i1 */
data _null_;
set calcul;
if _n_ = &i1.;
call symputx(« b »,&Y.);
run;

/* Conservation de la valeur de Y à l’itération i2 */
data _null_;
set calcul;
if _n_ = &i2.;
call symputx(« bb »,&Y.);
run;

/* Calcul du numérateur et du dénominateur pour l’itération en cours */
%let num = %sysevalf(&num. + (&aa. – &a.)*(&bb. – &b.));
%let den = %sysevalf(&den. + %sysfunc(abs(&aa. – &a.))*%sysfunc(abs(&bb. – &b.)));

%end;
%end;

/* Calcul du coefficient de monotonicité de Guttman */
data calcul;
mu_2 = &num./&den.;
run;

%mend;

Package et fonction R:

Guttman.monotonicity = function(X,Y) {

# Initialisation du numérateur et du dénominateur
num = 0
den = 0
# Suppression des données manquantes
T = na.omit(cbind(X,Y))
n = dim(T)[1]

# Calcul à part des valeurs au numérateur et au dénominateur
for (i1 in 1:n) {
for (i2 in 1:n) {
num = num + (T[i2,1]-T[i1,1])*(T[i2,2]-T[i1,2])
den = den + abs(T[i2,1]-T[i1,1])*abs(T[i2,2]-T[i1,2])
}
}

# Calcul du coefficient de monotonicité de Guttman
mu_2 = data.frame(mu_2 = as.numeric(num/den))
return(mu_2)

}

\bullet Bibliographie:

–  A general nonmetric technique for finding the smallest coordinate space for a configuration of points de Louis Guttman

– Probabilité, analyse des données et statistique de Gilbert Saporta