Historique :
Sommaire :
- Présentation
- Les différentes versions du test
- Cas pour échantillons non appariés
- Si et calcul de la p-valeur exacte
- L’approximation de Wilcoxon dans le cas d’ex-aequo
- Le de Mann-Whitney
- Conditions pour le rejet de
- Cas pour échantillons appariés
- Si et calcul de la p-valeur exacte
- Le test du signe
- Conditions pour le rejet de
- Cas pour échantillons non appariés
- Calcul de la p-valeur dans le cadre de la loi normale centrée-réduite
- Table de la loi normale centrée-réduite
- Algorithme de calcul
- Tendance lorsque
- Annexe théorique
- Calcul de dans le cadre de la version non appariée du test de Wilcoxon
- Similitude entre la statistique et le de Mann-Whitney
- Calcul de dans le cadre de la version appariée du test de Wilcoxon
- Exemple
- Cas pour échantillons non appariés : les tests de la somme des rangs de Wilcoxon et le de Mann-Whitney
- Cas pour échantillons appariés
- Le test des rangs signés de Wilcoxon
- Le test du signe
- Application sous R
- Cas pour échantillons non appariés : les tests de la somme des rangs de Wilcoxon et du de Mann-Whitney
- Cas pour échantillons appariés
- Le test des rangs signés de Wilcoxon
- Le test du signe
- Application sous SAS
- Cas pour échantillons non appariés : les tests de la somme des rangs de Wilcoxon et du de Mann-Whitney
- Cas pour échantillons appariés
- Le test des rangs signés de Wilcoxon
- Le test du signe
- Bibliographie
Présentation :
Publié en 1945 par Frank Wilcoxon, le test de Wilcoxon est une approche non paramétrique permettant de :
– Tester la liaison entre une variable continue ou ordinale , transformée au préalable en « vecteur de rangs » (dans le cas continue), et une variable binaire . L’idée est de comparer les rangs de par rapport à ceux de , les sous-échantillons de restreinte aux groupes et de . Et de voir si les rangs de l’un des groupes sont isolés de l’autre. Cette version du test porte également le nom de test de la somme des rangs de Wilcoxon ou de Wilcoxon-Mann-Whitney. De plus, le test de Wilcoxon est équivalent à celui du de Mann-Whitney (malgré une formule d’usage qui diffère) du fait de la relation linéaire existante entre eux, d’où l’amalgame qui est né entre ces deux tests ;
– Tester la liaison entre deux variables continues ou ordinales appariées . Cette version du test porte également le nom de test des rangs signés de Wilcoxon. Il s’agit d’une alternative plus puissante au test du signe, que l’on retrouve parfois dans la littérature sous l’appellation de : test des signes.
Que les données soient appariées ou non, le test de Wilcoxon est souvent vu comme l’alternative au test de Student lorsqu’elles ne respectent les hypothèses de normalité requises.
Enfin, cet article présentera également le de Mann-Whitney et le test du signe.
Les différentes versions du test :
Cas pour échantillons non appariés
Hypothèse préliminaire: continue ou ordinale, binaire.
Soit le vecteur des rangs associé à la variable , ordonnée par ordre croissant (en supposant le cas continue, dans le cas ordinale : ). On a donc et les rangs de restreinte aux deux groupes de et de tailles respectives ().
On définit l’espérance de la statistique de test : et sa variance : .
La statistique de test de la somme des rangs de Wilcoxon est :
Si alors on peut considérer la statistique de test suivante :
, qui suit une loi normale centrée-réduite. L’hypothèse est :
Les deux groupes sont semblables /
Soit la valeur seuil de la distribution de la statistique de test pour une confiance , l’hypothèse alternative est alors,
– , soit , pour un test unilatéral à gauche ;
– , soit , pour un test unilatéral à droite ;
– , soit , pour un test bilatéral.
Si et calcul de la p-valeur exacte :
Dans le cas où , on utilisera la statistique que l’on reportera à la table de la loi de Wilcoxon qui n’est pas disponible dans cet article. Aussi on réorientera lecteur vers le test du de Mann-Whitney. On passera par la formule reliant à afin de déterminer la valeur seuil à retenir en fonction des différents paramètres.
La p-valeur se détermine selon l’algorithme suivant :
– Étape 1 : déterminer la matrice des combinaisons de rangs possibles de taille parmi que l’on notera : ;
– Étape 2 : calculer la somme de chaque combinaison de rang et déterminer la valeur minimale , qui correspond à la somme des premiers rangs ;
– Étape 3 : ne retenir que les cas compris dans et pour chacun déterminer la fréquence d’apparition au sein de , que l’on notera :
– Etape 4 : avant toute chose il faut ici se souvenir du groupe de référence car cela va impacter le type de test voulu (unilatéral à droite, à gauche et bilatéral). Il faudrait alors appliquer les étapes 1 à 3 avec la référence initiale dont on notera les fréquences et les relancer pour le second groupe que l’on notera :
pour un test unilatéral à gauche ;
pour un test unilatéral à droite ;
pour un test bilatéral.
A noter que dans le cas où les p-valeurs associées au test unilatéral à gauche ou à droite sont les mêmes (ce qui peut arriver selon la distribution considérée), elles sont également supérieures à . Dés lors et par convention, on affecte la p-valeur du test bilatéral à .
L’Approximation de Wilcoxon dans le cas d’ex-aequo :
Si on compte un nombre trop important d’ex-aequos au sein des rangs de , alors il convient de procéder à une optimisation du calcul de , la variance de . On détermine,
Avec le nombre de groupes d’ex-aequos. On note que si aucun ex-aequo n’est présent dans l’échantillon, alors on peut voir les observations comme autant de groupes d’un élément. Et dans ce cas :
et
Le de Mann-Whitney:
Publié en 1947 suite aux travaux de Henry Berthold Mann et Donald Ransom Whitney, le test de Mann-Whitney, également appelé U-test, est un test donnant des résultats strictement équivalent au test de Wilcoxon. En effet, une relation linéaire peut-être mise en évidence entre les deux statistiques de test. Néanmoins, le test de Wilcoxon reste relativement le plus populaire et le plus utilisé par les praticiens.
La formule de la statistique de test de Mann-Whitney est:
Si alors il faut considérer comme la statistique de test de Mann-Whitney et la comparer à la table de Mann-Whitney ci-dessous :
La p-valeur se détermine selon l’algorithme décrit pour le test de la somme des rangs de Wilcoxon. Il faudra au préalable transformer en en se basant sur la formule suivante :
Dans le cas où , on considérera comme statistique de test l’objet suivant :
Avec,
– l’espérance de ,
– , sa variance.
Et comparer la statistique de test à la table de la loi normale centrée-réduite. L’hypothèse reste la même que pour le test de Wilcoxon.
Conditions pour le rejet de :
Plus la statistique de test et plus l’on a de chance de rejeter . Ce cas se présente soit quand la variance de est très faible mais étant donné qu’elle est basée sur cette situation n’est pas concrètement possible. Soit si s’éloigne fortement de autrement dit l’espérance de qui est la statistique construite en relation avec l’hypothèse et donc la valeur que doit prendre la somme des rangs dans le cas d’une distribution aléatoire.
Ainsi, une localisation des chez les plus bas ou plus haut rangs de permet d’avoir une somme soit très faible, soit très forte par rapport à . Ce qui correspond aux cas où les valeurs sont ordonnées et isolées en fonction des groupes.
Cas pour échantillons appariés
Hypothèse préliminaire: continues ou ordinales.
Soit variable aléatoire mesurée en deux temps et de taille . La première étape du calcul de la statistique de test des rangs signés de Wilcoxon est de déterminer le vecteur des différences des paires tel que ,
Et , vecteur des signes, tel que ,
La seconde étape consiste à éliminer de les , on se retrouve alors avec un vecteur de taille . De ce dernier, sera déterminé celui des rangs associés .
Dés lors deux formes différentes vont être utilisées afin de calculer la statistique des rangs signés de Wilcoxon, le cas sans ex-aequos:
, et le cas avec ex-aequos:
On considère , la statistique du test des rangs signés de Wilcoxon est et de formule :
, d’espérance et de variance .
Pour , on utilise la statistique de test (ou ) qui suit une loi de Wilcoxon signée à degrés de liberté. Dans le cas où on a . Celle de et qui suit une loi normale centrée-réduite.
Enfin, l’hypothèse testée quelque soit les conditions d’application du test des rangs signés de Wilcoxon est:
Aucune différence de population /
Soit la valeur seuil de la distribution de la statistique de test pour une confiance , l’hypothèse alternative est alors,
– , soit , pour un test unilatéral à gauche ;
– , soit , pour un test unilatéral à droite ;
– , soit , pour un test bilatéral.
Si et calcul de la p-valeur exacte :
Dans le cas où , on utilisera la statistique (ou ) que l’on reportera à la table de la loi de Wilcoxon signée suivante :
N’ayant pas eu le bonheur de mettre la main sur la fonction de répartition de cette loi, on se basera sur l’algorithme un peu « bourrin » ci-dessous pour en déterminer la p-valeur.
Soit une variable aléatoire suivant une loi signée de wilcoxon et qui peut s’écrire par définition ainsi:
, les suivent pour leur part la même loi de Bernouilli de paramètre . La complexité de cette loi de distribution étant le facteur qui rend la tâche plus ardue que dans le cas d’une loi binomiale classique.
L’idée est alors de déterminer pour toutes les valeurs comprises entre et basées sur les différentes combinaisons de .
Étape 1 : Générer toutes les combinaisons possibles de à ;
- Pour chaque valeur entière de l’intervalle que l’on notera , déterminer les combinaisons dont la somme ;
- Étant donné que le paramètre , chaque combinaison donnant la somme se base sur la même probabilité d’apparition : , puisque issue de avec le nombre de nécessaires et celui où . Dès lors, la probabilité de tirer dépend du nombre de combinaisons remplissant la condition nécessaire. De ce fait on a :
Étape 2 : On sommera les probabilités associées aux valeurs entières de l’intervalle et calculées précédemment afin de déterminer la p-valeur associée à la statistique de test ,
A noter le cas où , qui correspond au cas où l’ensemble des , soit les différences entre et , sont toutes négatives doit être pris en compte également.
Enfin, la p-valeur obtenue correspond à l’approche unilatéral à gauche ou à droite en fonction du sens des différences retenues. Afin de passer sur une version bilatérale, on prendra la p-valeur associé à celle unilatérale à gauche et on la multipliera par deux.
Le test du signe :
Le test du signe est un concurrent au test des rangs signés de Wilcoxon. Néanmoins, ce dernier demeure plus puissant et donc plus souvent utilisé car tenant compte de la variance contrairement au test du signe. Il a été publié en 1710 par John Arbuthnott puis étendu par Nicholas Bernouilli en 1713.
On considère l’ensemble des paires appariées . La statistique du test du signe est alors:
Elle suit une loi binomiale de paramètres où désigne le nombre de paires non égales. L’hypothèse est la même que celle du test des rangs signés de Wilcoxon.
Si , alors on peut reporter la statistique de test,
, à la table de la loi normale centrée-réduite. Avec l’espérance : et la variance : .
Dans ce cas là, on s’appuiera sur la table de la loi binomiale suivante (pour ) :
Le calcul de la p-valeur se fait via la formule qui suit. En notant la partie entière. On a,
– Pour un test unilatérale à gauche (on utilisera la statistique ) ou à droite () :
– Pour un test bilatérale (on utilisera la statistique ),
Conditions pour le rejet de :
Plus ou ou plus on a de chance de rejeter . En effet, plus on compte de différences positives et plus la somme est grande, traduit par un rang important, plus sont forts.
Pour cas , il faudrait de préférence raisonner en terme de fortes différences avec . Ce cas représentant celui où aucune n’est strictement positif, soit . Le test des rangs signés est symétrique puisque l’une de ces deux statistiques va dans ce sens, il suffirait de considérer la différence inverse, c’est à dire : ne plus considérer mais , pour se retrouver dans la situation .
Calcul de la p-valeur dans le cadre de la loi normale centrée-réduite :
Les deux versions du test de Wilcoxon, le de Mann-Whitney et le test du signe se basent sur la loi normale-centrée réduite lorsque l’échantillon est de taille suffisante.
La table de la loi normale centrée-réduite :
Algorithme de calcul :
Étant donné que la fonction de répartition de la loi centrée-réduite est basée sur la fonction erreur , il conviendra de passer par la méthode analytique proposée par Abramowitz et Stegun et permettant une estimation fiable à prés. Soit le changement de variable suivant,
La formule d’usage et faisant intervenir aussi bien que sa transformée est :
– Dans le cadre unilatéral à gauche,
– Dans le cadre unilatéral à droite,
– Dans le cadre bilatéral,
Avec,
– ;
– ;
– ;
– ;
– .
Tendance lorsque :
Le test de Wilcoxon se base sur la loi normale centrée-réduite qui est indépendante de . Par conséquent, se contenter d’étudier l’évolution de la p-valeur pour un cas similaire et pour une taille d’échantillon qui croît n’aura pas grand intérêt.
On proposera de simuler plusieurs échantillons selon cinq tailles différentes: et d’observer l’évolution des p-valeurs sous contrainte qu’ils suivent à chaque fois la même loi de distribution. Le tableau ci-dessous synthétise l’évolution de la situation:
De manière hâtive, on reste en adéquation avec l’hypothèse de construction de la statistique de test de Wilcoxon jusqu’à (). C’est entre et que l’on commence à rejeter à tort. Le problème vient de l’équilibre entre qui se base sur des produits faisant intervenir et et qui vont dérégler la statistique de test au fur et à mesure que la taille d’échantillon croît
Cette simulation montre que le test de Wilcoxon est atteint par la malédiction des grands échantillons.
Annexe théorique:
– Calcul de dans le cadre de la version non appariée du test de Wilcoxon:
La statistique peut être vue comme la somme de variables de Bernouilli indépendantes valant si est en ième position, sinon. Sur ce constat on peut calculer facilement ainsi :
– ;
–
– Similitude entre la statistique et le de Mann-Whitney:
La statistique de Mann-Whitney est de la forme :
, et plus particulièrement:
–
–
Il faut voir le calcul de la somme des rangs de manière inverse, c’est-à-dire :
=
, on remarque que l’on applique un décalage de l’indice à chaque calcul de . Dés lors, on a :
Or , statistique de la somme des rangs de Wilcoxon. Par conséquent,
Calcul de dans le cadre de la version appariée du test de Wilcoxon:
La statistique peut être vue comme la somme de variables de Bernouilli indépendantes conditionnellement aux rangs. Sur ce constat là on peut calculer facilement avec et .
–
–
Exemple:
Cas pour échantillons non appariés : Les tests de la somme des rangs de Wilcoxon et du de Mann-Whitney
Soit la variable aléatoire distribuée selon les deux groupes d’une variable :
Ci-dessous, les boxplots des distributions de restreinte au groupe « A » (en vert) et au groupe « B » (en rouge), permet de voir que visuellement les distributions des deux échantillons sont différentes.
Afin de calculer la statistique de test de Wilcoxon, on va d’abords ordonner le vecteur . On obtient pour les observations associées au groupe « A » les rangs suivants :
On a pour , la statistique de test :
A noter que .
Avant de continuer, on peut également calculer le de Mann-Whitney. On créé le tableau récapitulatif suivant :
, grâce auquel on détermine maintenant le nombre de fois où chaque valeur de est supérieur aux valeurs de . Par conséquent on a,
On poursuit avec le calcul de la p-valeur associée à la statistique de Wilcoxon. On se reportera à la table de la loi de Mann-Whitney pour la statistique de test équivalente à celle de Wilcoxon (),
Concernant le calcul de la p-valeur exacte, on détermine la matrice des combinaisons de parmi , ce qui revient à explorer cas possibles. La somme minimale est . Dans le cas de figure où l’on fixe comme groupe de référence celui où , on peut compter combinaisons de rangs dont les valeurs de . Avant de déterminer la p-valeur bilatéral on regarde celles pour des tests unilatéraux à gauche. On obtient la p-valeur suivante :
On est en présence d’une p-valeur en unilatérale supérieure à et par convention on a donc que la p-valeur en bilatérale est de .
Dans le cas où l’on veut se reporter à la loi normale centrée-réduite :
– L’espérance ;
– La variance (formule utilisée car pas d’ex-aequos).
La statistique de test vaut alors :
On cherche à tester bilatéralement le rejet de l’hypothèse . Sous cette approche, on génère une loi normale centrée-réduite et l’on reporte sur le graphe ci-dessous les valeurs seuils qui correspondent aux quantiles à et dans le cadre bilatéral,
En se reportant aux valeurs de la table de la loi normale centrée-réduite ci-dessus, on constate que,
Maintenant, on calcul la p-valeur associée à la statistique de test de la loi normale centrée-réduite dans le cadre bilatéral. On commence par appliquer le changement de variable,
On peut calculer maintenant la p-valeur,
On ne pourra pas rejeter au risque de et on en conclut que les rangs des valeurs des deux groupes sont les mêmes. La raison de cette contradiction entre la représentation graphique et le résultat du test provient du fait que le test de Wilcoxon recherche l’existence d’une relation linéaire entre et , or ici la liaison entre les deux variables n’est pas de ce type.
Cas pour échantillons appariés
Soit l’échantillon apparié suivant,
Ci-dessous le nuage de points basé sur ces données,
La représentation graphique montre, outre la différence de valeurs aux deux temps, une absence de linéarité entre (noté ) et (noté ).
Le test des rangs signés de Wilcoxon :
On veut appliquer le test de Wilcoxon sur les données appariées . On calcul le vecteur des valeurs absolues des différences, des rangs associés et des signes,
Aucun ex-aequo et aucune valeur ne valant n’est à relever, par conséquent . On détermine ensuite en fonction du cas de figure décrit juste avant,
Dans un premier temps on se reportera à la table de la loi signée de Wilcoxon dans le cadre bilatéral,
Concernant le calcul de la p-valeur exacte, on détermine la matrice des combinaisons de à parmi , ce qui revient à explorer cas possibles. En fonction de la valeur de , on peut trouver le nombre suivant de combinaisons dont la somme pondérée par l’itération donne ces valeurs,
On obtient alors la p-valeur suivante dans un cadre bilatéral :
Dans le cas où on souhaite se baser sur la loi normale centrée-réduite, on doit déterminer :
– L’Espérance, ;
– Et la variance, .
La statistique de test vaut alors:
On cherche à tester bilatéralement le rejet de l’hypothèse . Sous cette approche, on génère une loi normale centrée-réduite et l’on reporte sur le graphe ci-dessous les valeurs seuils qui correspondent aux quantiles à et dans le cadre bilatéral,
En se reportant aux valeurs de la table de la loi normale centrée-réduite ci-dessus, on constate que,
Maintenant, on calcul la p-valeur associée à la statistique de test de la loi normale centrée-réduite dans le cadre bilatéral. On commence par appliquer le changement de variable,
On peut calculer maintenant la p-valeur,
On pourra rejeter au risque de et on en conclut que les rangs de la variable évolue entre les deux temps et .
Le test du signe :
On applique maintenant le test du signe au couple . En se référant au tableau de synthèse des différences de l’exemple du test de Wilcoxon, on a alors,
Dans un premier temps on se reportera à la table de la loi binomial,
Concernant le calcul de la p-valeur exacte dans le cadre bilatéral,
Dans le cas où on souhaite se baser sur la loi normale centrée-réduite, on calcul l’espérance et la variance . La statistique de test vaut alors:
On cherche à tester bilatéralement le rejet de l’hypothèse . Sous cette approche, on génère une loi normale centrée-réduite et l’on reporte sur le graphe ci-dessous les valeurs seuils qui correspondent aux quantiles à et dans le cadre bilatéral,
En se reportant aux valeurs de la table de la loi normale centrée-réduite ci-dessus, on constate que,
Maintenant, on calcul la p-valeur exacte associée à la statistique de test de la loi normale centrée-réduite dans le cadre bilatéral. On commence par appliquer le changement de variable,
On peut calculer maintenant la p-valeur,
On pourra rejeter au risque de et on en conclut que les rangs de la variable évoluent entre les deux temps et .
Application sous R:
Cas pour échantillons non appariés : Les tests de la somme des rangs de Wilcoxon et du de Mann-Whitney
Dans un premier temps, on charge notre exemple:
X_Y1 = c(3.1101,4.1008,4.7876,7.0677,
6.0858,4.9309,4.0449,3.0101,5.9495,6.8729)
X_Y2 = c(1.0898,1.9868,2.9853,10.0080,8.9052,
8.0411,2.0826,1.0536,9.0649,10.0826)
Package et fonction R: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/wilcox.test.html
La fonction wilcox.test du package stats permet d’appliquer les différentes versions du test de Wilcoxon sur données non appariés ou appariés. Le package se charge automatiquement lors du lancement de R.
On lance le test de Wilcoxon afin de savoir si les rangs de et sont différents. On procède de la manière suivante :
wilcox.test(X_Y1,X_Y2,paired=FALSE)
Parmi les éléments à insérer les plus importants il faut relever :
– Les deux échantillons sur lesquels appliquer le test : X_Y1, X_Y2 ;
– Si les données sont non appariées : paired = FALSE ;
– On aurait pu rajouter l’instruction « alternative » qui permettra de déterminer si on veut procéder à un test bilatéral, unilatéral à gauche ou à droite. Par défaut le logiciel R lance le test dans un cadre bilatéral ;
– On aurait pu rajouter l’instruction « exact » qui permettra de déterminer si l’on veut se baser sur la loi de distribution de la loi centrée-réduite (TRUE) ou celle de Wilcoxon (FALSE, soit l’option par défaut).
On obtient alors les résultats suivants:
On vérifie :
– Les données utilisées: « data: X_Y1 and X_Y2 » ;
– La statistique de test: « » , qui est en réalité celle du de Mann-Whitney obtenue lors des calculs manuels (cf section « Exemple ») ;
– La p-valeur: « » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;
– Et le type de test effectué: « alternative hypothesis: true location shift is not equal to « .
Concernant le test du de Mann-Whitney, il n’y a pas de fonction R qui lui soit dédié étant donné la relation intime qu’il partage avec le test de Wilcoxon.
Cas pour échantillons appariés
Dans un premier temps, on charge notre exemple:
X_t1 = c(3.1101,4.1008,4.7876,7.0677,6.0858,4.9309,
4.0449,3.0101,5.9496,6.8729,1.0898,1.9868,2.9853,10.0080,
8.9052,8.0411,2.0826,1.0536,9.0649,10.0826)
X_t2 = c(0.8970,2.0949,3.0307,4.0135,5.0515,6.0261,
6.9059,7.9838,8.9854,9.9468,11.1682,11.9124,12.9516,
13.9288,14.8826,15.9808,16.9726,18.1530,18.9751,19.8936)
Le test des rangs signés de Wilcoxon :
Package et fonction R: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/wilcox.test.html
La fonction wilcox.test du package stats permet d’appliquer les différentes versions du test de Wilcoxon sur données appairées ou non appariées. Le package se charge automatiquement lors du lancement de R.
On lance le test de Wilcoxon afin de savoir si évolue entre les temps et . On procède de la manière suivante :
wilcox.test(X_t1,X_t2,paired=TRUE)
Parmi les éléments à insérer les plus importants il faut relever:
– Les deux échantillons sur lesquels appliquer le test : X_t1, X_t2 ;
– Si les données sont appariées : paired = TRUE;
– On aurait pu rajouter l’instruction « alternative » qui permettra de déterminer si on veut procéder à un test bilatéral, unilatéral à gauche ou à droite. Par défaut le logiciel R lance le test dans un cadre bilatéral.
– On aurait pu rajouter l’instruction « exact » qui permettra de déterminer si l’on veut se baser sur la loi de distribution de la loi centrée-réduite (TRUE) ou celle de Wilcoxon (FALSE, soit l’option par défaut).
On obtient alors les résultats suivants :
On vérifie :
– Les données utilisées: « data: X_t1 and X_t2 » ;
– La statistique de test: « » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;
– La p-valeur: « » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;
– Et le type de test effectué: « alternative hypothesis: true location shift is not equal to » .
Le test du signe :
Package et fonction R: https://www.rdocumentation.org/packages/BSDA/versions/1.2.0/topics/SIGN.test
La fonction SIGN.test du package BSDA permet d’appliquer le test du signe.
On lance le test du signe afin de savoir si évolue entre les temps et . On procède de la manière suivante :
SIGN.test(X_t1,X_t2)
Parmi les éléments à insérer les plus importants il faut relever:
– Les deux échantillons sur lesquels tester l’égalité des médianes : X_t1, X_t2 ;
– On aurait pu rajouter l’instruction « alternative » qui permettra de déterminer si on veut procéder à un test bilatéral, unilatéral à gauche ou à droite. Par défaut le logiciel R lance le test dans un cadre bilatéral.
On obtient alors les résultats suivants :
On vérifie :
– Les données utilisées: « data: X_t1 and X_t2 » ;
– La statistique de test: « » , qui est en réalité celle que l’on a déterminé dans notre exemple moins l’espérance (cf section « Exemple ») ;
– La p-valeur: « » , qui est la même que celle obtenue lors des calculs manuels à ceci près qu’il s’agit de la p-valeur exacte et non celle associée à la distribution normale centrée-réduite (cf section « Exemple ») ;
– Et le type de test effectué: « alternative hypothesis: true median difference is not equal to » .
Application sous SAS:
Cas pour échantillons non appariés : Les tests de la somme des rangs de Wilcoxon et du de Mann-Whitney
Soit l’exemple suivant:
data E;
input Y $1. X;
cards;
A 3.1101
A 4.1008
A 4.7876
A 7.0677
A 6.0858
A 4.9309
A 4.0449
A 3.0101
A 5.9495
A 6.8729
B 1.0898
B 1.9868
B 2.9853
B 10.0080
B 8.9052
B 8.0411
B 2.0826
B 1.0536
B 9.0649
B 10.0826
;
run;
Procédure SAS : http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_npar1way_sect022.htm
On lance le test de Wilcoxon pour données non appariées afin de savoir si et ont la même médiane. On procède de la manière suivante:
proc npar1way wilcoxon data = E;
class Y;
var X;
ods exclude WilcoxonScores KruskalWallisTest;
run;
Parmi les éléments à insérer les plus importants il faut relever :
– La table contenant nos données: data = E ;
– L’utilisation du test de Wilcoxon: proc npar1way wilcoxon ;
– La variable sur laquelle appliquer le test : var ;
– La variable binaire permettant de scinder en et : class ;
– L’ods output est utilisé afin de filtrer les résultats et n’afficher que ceux dont on a besoin.
On obtient alors les résultats suivants:
On vérifie :
– Sur la ligne « Statistique » , la statistique de test: « « , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;
– Sur la ligne « Bilatéral » du paragraphe « Approximation normale », la p-valeur : « » , qui est la même celle obtenue lors des calculs manuels (cf section « Exemple »).
Concernant le test du de Mann-Whitney, il n’y a pas de procédure SAS qui lui soit dédié étant donné la relation intime qu’il partage avec le test de Wilcoxon.
Cas pour échantillons appariés
Soit l’exemple suivant:
data E;
input X_t1 X_t2;
cards;
3.1101 0.8970
4.1008 2.0949
4.7876 3.0307
7.0677 4.0135
6.0858 5.0515
4.9309 6.0261
4.0449 6.9059
3.0101 7.9838
5.9496 8.9854
6.8729 9.9468
1.0898 11.1682
1.9868 11.9124
2.9853 12.9516
10.0080 13.9288
8.9052 14.8826
8.0411 15.9808
2.0826 16.9726
1.0536 18.1530
9.0649 18.9751
10.0826 19.8936
;
run;
Le test des rangs signés de Wilcoxon :
Procédure SAS : http://support.sas.com/documentation/cdl/en/procstat/66703/HTML/default/viewer.htm#procstat_univariate_details84.htm
On lance le test des rangs signés de Wilcoxon afin de savoir si les rangs des valeurs de aux temps et sont les mêmes. Le test ne se fait pas directement, il faut pour cela créer une variable intégrant la différence des valeurs de et . On procède de la manière suivante:
data E;
set E;
diff = X_t1 – X_t2;
run;
proc univariate data = E;
var diff;
ods exclude Moments BasicMeasures Quantiles ExtremeObs;
run;
Parmi les éléments à insérer les plus importants il faut relever:
– La table contenant nos données: data = E ;
– La variable sur laquelle porte le test: var diff , qui correspond à la différence entre et calculée lors de l’étape data juste avant ;
– L’ods output est utilisé afin de filtrer les résultats et n’afficher que ceux dont on a besoin.
On obtient alors les résultats suivants:
On vérifie:
– Dans la colonne « Statistique » à la ligne « Signed Rank », la statistique de test : « » , qui est en réalité le résultat de celle obtenue lors de nos calculs manuels moins l’espérance (cf section « Exemple ») ;
– Dans la colonne « P-value » à la ligne « Signed Rank » , la p-valeur : « » , qui est la même que celle obtenue lors des calculs manuels à arrondi prés (cf section « Exemple » ).
Le test du signe :
Procédure SAS : http://support.sas.com/documentation/cdl/en/procstat/66703/HTML/default/viewer.htm#procstat_univariate_details84.htm
On lance le test du signe afin de savoir si les rangs des valeurs de aux temps et sont les mêmes. Le test ne se fait pas directement, il faut pour cela créer une variable intégrant la différence des valeurs de et . On procède de la manière suivante:
data E;
set E;
diff = X_t1 – X_t2;
run;
proc univariate data = E;
var diff;
ods exclude Moments BasicMeasures Quantiles ExtremeObs;
run;
Parmi les éléments à insérer les plus importants il faut relever:
– La table contenant nos données: data = E ;
– La variable sur laquelle porte le test: var diff , qui correspond à la différence entre et calculée lors de l’étape data juste avant ;
– L’ods output est utilisé afin de filtrer les résultats et n’afficher que ceux dont on a besoin.
On obtient alors les résultats suivants:
On vérifie:
– Dans la colonne « Statistique » à la ligne « Signe », la statistique de test : « » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple ») ;
– Dans la colonne « P-value » à la ligne « Sign » , la p-valeur : « » , qui est la même que celle obtenue lors des calculs manuels (cf section « Exemple » ).
Bibliographie:
– Individual comparisons by ranking methods de Franck Wilcoxon
– Statistique, dictionnaire encyclopédique de Yadolah Dodge
– Probabilité, analyse de données et statistique de Gilbert Saporta
– Le document : https://jonathanlenoir.files.wordpress.com/2013/12/tables-mann-whitney-wilcoxon-kruskal-wallis.pdf
– Méthodes et modèles en statistique non paramétrique, exposé fondamental de Philippe capéraà et Bernard Van Cutsem