Les tests pour la détection d’outliers

add.png

\bullet Introduction:

Les outliers ou observations aberrantes sont des valeurs d’une variable continue X douteuses au sens d’un écart fort avec le reste de la distribution de X. L’intérêt au problème des outliers débute en 1750 avec les travaux de Roger Joseph Boxcovitch, Pierre Simon de Laplace et Adrien-Marie Legendre. 

Deux approches sont à suggérer pour le traitement des outliers: les conserver en adaptant le choix de l’outil statistique ou alors leur suppression. La principale motivation à leur détection est qu’ils peuvent étirer la moyenne ou l’écart-type à tort apportant ainsi un biais au calcul des estimateurs d’intérêt.

La plupart du temps les outliers ont pour origine une erreur de saisie ou de mesure ce qui privilégierait leur suppression, néanmoins le manque de certitude sur leur origine fait qu’il n’y a pas vraiment de méthode universelle car un outlier peut également être une réelle valeur et simplement inattendue. C’est d’ailleurs sur ce point précis que la communauté scientifique s’oppose lors de leur traitement.

Toute une batterie de tests et de critères statistiques a été conçue afin de déterminer au sens statistique du terme si une observation est un outlier ou non, le plus populaire de tous restant le critère décisionnel de Tukey.

add1

\bullet Les différents tests:

– Le critère de Tukey

Qui et quand: John Wilder Tukey, 1977

Le critère:

L’Outil possède l’avantage de pouvoir déterminer un seuil à partir duquel les observations, en fonction de leur valeur, doivent être considérées comme aberrante relativement à la distribution de X. Permettant ainsi la détection d’un ou plusieurs outliers simultanément.

L’algorithme décisionnel du critère de Tukey est, \forall i \in [1,n],

si X_i < Q_1 - 1.5 IQR ou X_i > Q_3 - 1.5 IQR

, alors l’observation i est un outlier.

Nous noterons Q_1 le premier quartile (soit le quantile à 25\%), Q_3 le troisième quartile (soit celui à 75\%) et IQR l’interquartile. Leurs formules respectives sont,

Q_1 = X_{E[\frac{n+1}{4}]} + 0.75 (X_{E[\frac{n+1}{4}] + 1} - X_{E[\frac{n+1}{4}]}),

Q_3 = X_{3 E[\frac{n+1}{4}]} + 0.75 (X_{3 E[\frac{n+1}{4}] + 1} - X_{3 E[\frac{n+1}{4}]}),

IQR = Q_3 - Q_1.

E[.] désigne la partie entière de ..

– Le test Q de Dixon

Qui et quand: Wilfrid Joseph Dixon, 1951.

Le test:

Le test Q de Dixon se base principalement sur la distance entre X_i, l’observation suspectée d’être aberrante, et celle qui la précède afin de déterminer s’il s’agit d’un outlier ou non.

Supposons X trié, la formule du test Q de Dixon est,

– si X_i \geq mediane(X) alors Q = \frac{X_{i + 1} - X_i}{X_n - X_1},

– si X_i \leq mediane(X) alors Q = \frac{X_i - X_{i - 1}}{X_n - X_1}.

Nous reportons ensuite Q à la table de Dixon ci-dessous selon un niveau de confiance \alpha fixé,

add

Si Q > Q_{\alpha \%}, alors l’observation i peut être considérée comme un outlier.

– Le critère de Chauvenet

Qui et quand: William Chauvenet, 1863.

Le critère:

Le critère de Chauvenet se base sur une approche stochastique pour la détermination d’outliers et considère les observations les unes après les autres. La procédure pour départager tous les outliers consiste à supprimer les observations en partant de la valeur maximale ou minimale et de relancer le test à chaque nouvelle observation à vérifier.

Pour une observation X_i suspectée d’être un outlier, le critère de Chauvenet est,

si n \cdot erfc (\frac{|X_i - \overline{X}|}{\sigma_X}) < 0.5 alors X_i est un outlier

, où que erfc est la fonction d’erreur complémentaire.

– Le test de Grubbs

Qui et quand: Frank E. Grubbs, 1969.

Le test:

Le test de Grubbs, également connu sous le nom de test du maximum des résidus normalisés, recherche à déterminer si la valeur maximale ou minimale de X est un outlier. Lorsque nous suspectons un lot d’observations, il faudra se tourner vers sa généralisation: le test de Tietjen-Moore.

La formule du test de Grubbs est,

G_{min} = \frac{\overline{X} - min_{i \in 1, \cdots, n} (X)}{s} et G_{max} = \frac{max_{i \in 1, \cdots, n} (X) - \overline{X}}{s}

Le critère de décision, selon un seuil de confiance \alpha fixé et permettant de déterminer si la valeur maximale et/ou la valeur minimale sont des outliers est,

Si G_{min}, G_{max} > \frac{n - 1}{\sqrt{n}} \sqrt{\frac{t_{\frac{\alpha}{n},n-2} ^2}{n - 2 + t_{\frac{\alpha}{n},n - 2} ^2}} alors ce sont des outliers

, t_{\delta,df} représentant la fonction quantile associée à la distribution de Student pour le seuil de confiance \delta et pour df degrés de liberté.

– Le test de Tietjen-Moore

Qui et quand: Gary Tietjen et Roger Moore, 1972

Le test:

Le test de Tietjen-Moore est une généralisation de celui de Grubbs permettant de détecter un lot d’outliers et plus uniquement si la valeur maximale et minimale en sont. A noter que les valeurs testées doivent se succéder au niveau de la distribution. De plus, le test de Tietjen-Moore reste très dépendant du paramètre I à fixer et représentant le nombre d’observations à tester, ce qui peut nuire à la qualité de la détection s’il est mal paramétré.

Trois version du test de Tietjen-Moore existe en fonction de ce que nous cherchons à déterminer (les données seront supposées triées),

– Pour la ou les valeurs minimale(s) de la première à la I-ème:

L_{I,min} = \frac{\sum_{i = 1} ^{n-I} (X_i - \overline{X_{-[1,I]}}) ^2}{\sum_{i = 1} ^n (X_i - \overline{X}) ^2}

– Pour la ou les valeurs maximale(s) de la I-ème à la n-ème:

L_{I,max} = \frac{\sum_{i = I + 1} ^n (X_i - \overline{X_{-[I,n]}}) ^2}{\sum_{i = 1} ^n (X_i - \overline{X}) ^2}

, où X_{-[.,.]} représente le vecteur X privé des éléments inclus dans l’intervalle [.,.],

– Pour la ou les valeurs minimale(s) et maximale(s) (approche symétrique):

E_I = \frac{\sum_{i = 1} ^{n - I} (z_i - \overline{z_{-[I,n]}}) ^2}{\sum_{i = 1} ^n (z_i - \overline{z_i}) ^2}

, où z est le vecteur X ordonné en fonction du score résiduel \forall i \in [1,n], |X_i - \overline{X}|.

Afin de déterminer la valeur seuil à partir de laquelle nous pouvons tester notre hypothèse il faut simuler selon une loi normale centrée-réduite un nombre L de vecteurs de taille identique n à celle de X et appliquer le test de Tietjen-Moore pour chacun. La valeur seuil correspond au quantile à 5\% de la distribution des tests réalisés.

Si la valeur L_{I,min}, L_{I,max}, E_I est inférieur à la valeur seuil obtenu alors nous pouvons conclure que les observations considérées sont des outliers.

– Le test généralisé de la déviation extrême de Student

Qui et quand: Bernard Rosner, 1983

Le test:

Le test généralisé ESD (Extrem Studentized Deviation) permet la détection simultanée d’un ou plusieurs outliers et ne nécessite aucun paramétrage.

La première étape pour pouvoir calculer le test généralisé ESD est de ranger par ordre croissant X et déterminer le vecteur Z tel que,

Z_1 = \frac{max_{i \in [1, n]} (| X_i - \overline{X} |)}{\sigma_X}

\forall i \in [2,n],

— Suppression de l’observation qui maximise max_I(|X_i - \overline{X_I}|) et mise à jour de l’ensemble des observations à considérer I et dépourvu d’elle.

— Calcul de Z_i = \frac{max_{i \in I} (| X_i - \overline{X_I} |)}{\sigma_{X_I}}

, où X_I représente le vecteur X dépourvu des observations dans l’intervalle I indiqué.

En seconde étape, il faut pour chaque observation du vecteur Z, calculer la statistique de test \lambda,

\forall i \in [1,n], \lambda_i = \frac{(n - i) t_{1 - \frac{\alpha}{2 (n - i + 1)},n - i - 1}}{\sqrt{(n - i - 1 + t_{1 - \frac{\alpha}{2 (n - i + 1)},n - i - 1} ^2) (n - i + 1)}}

, où t_{\delta,df} représente la fonction quantile associée à la distribution de Student pour le seuil de confiance \delta et pour df degrés de liberté pour un seuil \alpha fixé.

Si Z_i > \lambda_i alors l’observation i peut être considérée comme un outlier.

– Le test \tau modifié de Thompson

Qui et quand: David J. Thompson, 1950.

Le test:

Le test \tau modifié de Thompson repose sur un algorithme permettant de vérifier directement quelles observations au sein de X peuvent être considérées comme des outliers.

Il faut dans un premier temps calculer,

\forall i \in [1,n], \delta_i = | X_i - \overline{X}|

Et pour l’observation maximisant \delta_i, pour un seuil de confiance \alpha fixé, la comparer à la valeur de référence,

\tau = \frac{t_{\frac{\alpha}{2},n-2} (n - 1)}{\sqrt{n (n - 2 + t_{\frac{\alpha}{2},n-2} ^2)}}

, où t_{\beta,df} représente la fonction quantile de Student pour le seuil de confiance \beta et pour df degrés de liberté.

Si \delta_i > \tau \sigma_X alors l’observation peut être considérée comme un outlier. 

La procédure doit être réitérée jusqu’à ce que \delta_i \leq \tau \sigma_X en supprimant à chaque nouvelle itération l’observation détectée comme un outlier et en mettant à jour la moyenne et l’écart-type.

– Le critère de Peirce

Présentation: Benjamin Peirce, 1877

Le test:

Le critère de Peirce présente de nombreux avantages: plus rigoureux que la majorité des autres méthodes de détection, il permet de déterminer directement l’ensemble des outliers au sein de X et ne repose pas sur un critère arbitraire pour le rejet d’une observation. De plus, il reste très simple à mettre en oeuvre.

L’algorithme de Peirce est le suivant,

1- Déterminer \overline{X}, \sigma_X,

2- A l’aide de la table de Peirce, calculer R pour un outlier suspecté sur n observations de X,

3- Calculer | X_i - \overline{X} |_{max} = \sigma_X R,

4- Rechercher les observations tel que \forall i \in [1,n], | X_i - \overline{X} | > |X_i - \overline{X} |_{max}, celles répondant à ce critère pourront être classées comme outlier,

5- Si au moins une observation répond à ce critère alors nous la supprimons de X et recalculons | X_i - \overline{X} |_{max} pour les même valeurs de n, \overline{X}, \sigma_X, seul R change et doit être relevé sur la table de Peirce pour deux outliers suspectés sur n observations. L’Opération est à renouveler à chaque fois que nous détectons un nouvel outlier.

6- Si plus aucune observation ne répond au critère, alors il faut mettre à jour n, \overline{X}, \sigma_X et reprendre depuis l’étape une à 5 tant qu’à l’étape 4 au moins une observation est détectée comme outlier.

Ci-dessous, la table de Peirce pour la détermination de R,

add

\bullet Exemple:

Soit l’échantillon suivant,

add2

Le boxplot associé à X est,

add3.png

– Le critère de Tukey

Nous cherchons donc à calculer le seuil, selon le critère de Tukey, à partir duquel une observation peut être considérée comme un outlier.

Nous avons donc,

Q_1 = 3.1547 + 0.75 \times (0.35896 - 3.1457)

= 3.1547 + 0.75 \times 0.4349

= 3.1547 + 0.326175

= 3.480875

Q_3 = 9.3500 + 0.25 \times (9.4578 - 9.3500)

= 9.3500 + 0.25 \times 0.1078

= 9.3500 + 0.02695

= 9.37695

IQR = 9.37695 - 3.480875 = 5.896075

Par conséquent,

S_1 = Q_1 - 1.5 \times IQR

= 3.480875 - 1.5 \times 5.896075

= 3.480875 - 8.44112

= - 5.363237

S_2 = Q_3 + 1.5 \times IQR

= 9.37695 + 1.5 \times 5.896075

= 9.37695 + 8.844112

= 18.22106

Nous n’avons pas d’observation pour laquelle sa valeur est inférieure à S_1, cependant nous avons une observation (X_{12}) dont la valeur est supérieure à S_2. Nous en déduisons que X_{12} est un outlier.

– Le test Q de Dixon

Nous cherchons à voir si la plus petite et la plus grande valeur de X sont des outliers. Si nous regardons la table de Dixon, la valeur seuil pour n = 20 et au risque de 5\% est: 0.450. Nous avons donc,

Q = \frac{2.1475 - 1.9593}{19.1245 - 1.9593} = \frac{0.1882}{17.1652} = 0.1882 < 0.450,

Q = \frac{19.1245 - 9.8308}{19.1245 - 1.9593} = \frac{9.2937}{17.1652} = 0.5414268 > 0.450.

Nous en déduisons, qu’au risque de 5\%, la valeur minimale (1.9593) n’est pas un outlier contrairement à la valeur maximale (19.1245) qui en est un.

– Le critère de Chauvenet

Nous cherchons à voir si la plus petite et la plus grande valeur de X sont des outliers. Dans un premier temps calculons la moyenne et l’écart-type,

\mu = 6.605515,

\sigma = 4.095388.

Nous pouvons maintenant calculer les éléments à soumettre au critère de Chauvenet. Nous avons alors,

\frac{1.9593 - 6.605515}{4.095388} = \frac{-4.646215}{4.095388} = -1.134499

\Rightarrow 20 \times erfc(|-1.134499|) = 20 \times 0.1086206525 = 2.1724130491

\Rightarrow 2.1724130491 > 0.5, nous en concluons que la valeur minimale n’est pas un outlier.

\frac{19.1245 - 6.605515}{4.095388} = \frac{12.51899}{4.095388} = 3.05685

\Rightarrow 20 \times erfc(|3.05685|) = 20 \times 0.0000153895 = 0.0003077894

\Rightarrow 0.0003077894 < 0.5, nous en concluons que la valeur maximale est un outlier.

– Le test de Grubbs

Nous cherchons à voir si la plus petite et la plus grande valeur de X sont des outliers. Dans un premier temps calculons la moyenne et l’écart-type,

\mu = 6.605515,

\sigma = 4.095388.

Nous avons donc,

G_{min} = \frac{6.605515 - 1.9593}{4.095388} = \frac{4.646215}{4.095388} = 1.134499

G_{max} = \frac{19.1245 - 6.605515}{4.095388} = \frac{12.51899}{4.095388} = 3.056851

Nous devons comparer ces deux valeurs au seuil,

\frac{20 - 1}{\sqrt{20}} \times \sqrt{\frac{t_{\frac{0.05}{20},20-2} ^2}{20 - 2 + t_{\frac{0.05}{20},20-2} ^2}} = \frac{19}{4.472136} \times \sqrt{\frac{t_{0.00125,18} ^2}{18 + t_{0.00125,18} ^2}}

= 4.248529 \times \sqrt{\frac{(-3.196574) ^2}{18 + (-3.196574) ^2}}

= 4.248529 \times \sqrt{\frac{10.21809}{28.21809}}

= 4.248529 \times 0.6017568

= 2.556381

Nous constatons que G_{min} < 2.556381 et G_{max} > 2.556381 et en concluons que seul la valeur maximale de X peut être considérée comme un outlier.

– Le test de Tietjen-Moore

Nous cherchons à déterminer si la valeur maximale et minimale sont des outliers, nous fixons donc I = 2. Nous appliquons donc la troisième version du test de Tietjen-Moore.

Dans un premier temps, nous avons les valeurs résiduelles,

\forall i \in[1,20], |X_i - \overline{X}| = (4.646215, 4.058315, \cdots, 1.482015, 1.340115)

Les valeurs maximales sont alors 4.646215, 12.518985, qui correspondante au minimum de X et à son maximum. Le vecteur z ordonné selon les valeurs résiduelles et contenant les valeurs de X est alors,

z = (7.5456, 5.2654, 5.2575, 5.1235, 8.1457, 8.9854, 4.1493, 4.1254

, 9.3500, 9.4578, 9.5965, 9.6160, 3.5896, 9.8308, 3.1547, 3.1386, 2.5472, 2.1475, 1.9593, 19.1245)

Nous avons donc,

E_2 = \frac{\sum_{i = 1} ^{20 - 2} (z_i - \overline{z_I}) ^2}{\sum_{i = 1} ^n (z_i - \overline{z}) ^2} = \frac{\sum_{i = 1} ^{18} (z_i - 6.168139) ^2}{\sum_{i = 1} ^n (z_i - 6.605515) ^2} = \frac{136.9162}{318.6719} = 0.4296463

Maintenant, simulons le seuil. Pour L = 100000 simulations, nous obtenons un quantile à 5\% égal à 0.4150498. Nous constatons que E_2 > 0.4150498, par conséquent nous ne pouvons conclure que la valeur minimale et maximale sont des outliers.

– Le test généralisé de la déviation extrême de Student

Nous cherchons à déterminer au sein de X si les trois observations aux valeurs les plus grandes et les plus petites peuvent être considérées comme des outliers.

Dans un premier temps déterminons les différents éléments du vecteur Z,

\overline{X} = 6.605515, sigma_X = 4.095388,

Z_1 = \frac{max_{i \in [1,20]} (| X_i -  6.605515|)}{4.095388} = \frac{12.51899}{4.095388} = 3.05685

L’observation pour laquelle max_{i \in [1,20]} (|X_i - \overline{X}|) est atteint est la valeur maximale de X, 19.1245. Elle sera donc supprimée pour le calcul de Z_2.

\overline{X_{-20}} = 5.946621, \sigma_{X_{-20}} = 5.946621,

Z_2 = \frac{max_{i \in [1,19]} (| X_i -  5.946621|)}{2.92212} = \frac{3.987321}{2.92212} = 1.36453

L’observation pour laquelle max_{i \in [1,19]} (|X_i - \overline{X_{-20}}|) est atteint est la valeur minimal de X_{-20}, 1.9593. Elle sera donc supprimé pour le calcul de Z_3.

\overline{X_{-\lbrace 1,20 \rbrace }} = 6.168139, \sigma_{X_{-\lbrace 1,20 \rbrace }} = 2.837938,

Z_3 = \frac{(max_{i \in [2,19]} (| X_i -  6.168139|)}{2.837938} = \frac{4.020639}{2.837938} = 1.416747

Maintenant, calculons la valeur seuil qui nous permettra de déterminer si nos observations peuvent être considérées comme des outliers,

\lambda_1 = \frac{(20 - 1) \times t_{(1 - \frac{0.05}{2 (20 - 1 + 1)},20-1-1)}}{\sqrt{(20 - 1 - 1 + t_{(1 - \frac{0.05}{2 (20 - 1 + 1)},20-1-1)} ^2) \times (20 - 1 + 1)}}

= \frac{19 \times t_{(0.99875,18)}}{\sqrt{(18 + t_{(0.99875,18)}) \times 20}}

= \frac{19 \times 3.510104}{\sqrt{(18 + 3.510104) \times 20}}

= \frac{66.69198}{24.62553}

= 2.708245

\lambda_2 = \frac{(20 - 2) \times t_{(1 - \frac{0.05}{2 (20 - 2 + 1)},20-2-1)}}{\sqrt{(20 - 2 - 1 + t_{(1 - \frac{0.05}{2 (20 - 2 + 1)},20-2-1)} ^2) \times (20 - 2 + 1)}}

= \frac{18 \times t_{(0.9986842,17)}}{\sqrt{(17 + t_{(0.9986842,17)}) \times 19}}

= \frac{18 \times 3.5193}{\sqrt{(17 + 3.5193) \times 19}}

= \frac{63.3474}{23.62888}

= 2.680931

\lambda_3 = \frac{(20 - 3) \times t_{(1 - \frac{0.05}{2 (20 - 3 + 1)},20-3-1)}}{\sqrt{(20 - 3 - 1 + t_{(1 - \frac{0.05}{2 (20 - 3 + 1)},20-3-1)} ^2) \times (20 - 3 + 1)}}

= \frac{17 \times t_{(0.9986111,17)}}{\sqrt{(17 + t_{(0.9986111,17)}) \times 18}}

= \frac{17 \times 3.530648}{\sqrt{(17 + 3.530648) \times 18}}

= \frac{60.02102}{22.63578}

= 2.651599

Nous constations que Z_1 > \lambda_1, Z_2 < \lambda_2, Z_3 < \lambda_3, par conséquent nous ne pouvons conclure que seul la valeur maximale de X peut être considérée comme un outlier.

– Le test \tau modifié de Thompson

Nous cherchons à déterminer les outliers au sein de de X. Nous avons \overline{X} = 6.605515. Calculons les \delta_i, \forall i \in [1,20],

\delta = (|1.9593 - 6.605515|, \cdots, |5.2654 - 6.605515|) = (4.6426215, \cdots, 1.340115)

L’Observation pour laquelle la valeur de \delta est maximale est celle qui correspond au maximum de X, soit \delta_{12} = 12.51899.

Maintenant, déterminons la valeur de référence pour un seuil de confiance de 5\%,

\tau = \frac{t_{\frac{0.05}{2},20-2} \times (20 - 1)}{\sqrt{20 \times (20 - 2 + t_{\frac{0.05}{2},20-2} ^2)}}

= \frac{t_{0.025,18} \times 19}{\sqrt{20 \times (18 + t_{0.025,18} ^2)}}

= \frac{-2.100922 \times 19}{\sqrt{20 \times (18 +4.413873)}}

= \frac{-39.91752}{\sqrt{448.2775}}

= \frac{-39.91752}{21.17256}

= -1.885342

Nous avons \sigma_X ^2 = 16.7722 et donc que,

\delta_{12} = 12.51899 > |-1.885342| \times 16.7722 = 31.61233

, nous en concluons que la valeur maximale de X est un outlier.

Lançons la seconde itération, nous supprimons donc la valeur maximale de X et obtenons,

\overline{X_{-12}} = 5.946621 et \sigma_{X_{-12}} ^2 = 8.538788

Après calcul de \delta, il en ressort que la valeur maximale correspond à la valeur minimale de X. Nous obtenons en valeur de référence et pour n = 19 observations,

\tau = -1.881106

Nous avons alors, \delta_1 = 3.9873211 < |-1.881106| \times 8.538788 = 16.06237. Nous en déduisons que la valeur minimale ne peut être considérée comme un outlier et stoppons l’algorithme à cette itération.

– Le critère de Peirce

Déterminons l’ensemble des outliers de X par le critère de Peirce. Nous débutons l’algorithme en calculons \overline{X} = 6.6055145, \sigma_X = 4.095388.

En nous reportant à la table de Peirce pour n = 20 et un outlier suspecté, nous obtenons R = 2.209. Par conséquent,

|X_i - \overline{X} |_{max} = 4.095388 \times 2.209 = 9.046712

Nous constatons que la seule observation remplissant le critère,

|X_i - \overline{X}| > 9.046712

, est la numéro douze, soit la valeur maximale de X.

Nous recherchons la présence d’un second outlier en mettant à jour la valeur de R = 1.914 depuis la table de Peirce pour n = 20 et deux outliers suspectés, nous obtenons,

|X_i - \overline{X} |_{max} = 4.095388 \times 1.914 = 7.838573

Aucune observation ne remplit le critère,

|X_i - \overline{X}| > 7.838573

Pour cette première itération nous en déduisons que X_{12} est un outlier et le supprimons du jeu de données.

Lançons une seconde itération en mettant à jour \overline{X_{-12}} = 5.946621, \sigma_{X_{-12}} = 2.92212. Nous obtenons R = 2.185 pour un outlier suspecté et n = 19, ce qui implique,

|X_i - \overline{X} |_{max} = 2.92212 \times 2.185 = 6.384832

Il se trouve qu’aucune observation ne remplit le critère,

|X_i - \overline{X_{-12}}| > 6.384832

Par conséquent, nous pouvons arrêter l’algorithme et conclure que seule la valeur maximale de X peut être considérée comme un outlier.

\bullet Application informatique:

Procédure SAS:

Package et fonction R:

\bullet Bibliographie: 

– Statistique. Dictionnaire encyclopédique de Yadolah Dodge

– Exploratory Data Analysis de John Wilder Tukey

– Simplified Statistics for Small Numbers of Observations de R. B. Dean et W. J. Dixon

– A Manual fo Spherical and Practical Astronomy de William A. Chauvenet

– Procedures for Detecting Outlying de F. E. Grubbs

– Rejecting Outliers in Factorial Designs de W. Stefansky

– Some Grubbs-Type Statistics for the Detection of Outliers de Gary Tietjen et Roger Moore

– Percentage Points for a Generalized ESD Many-Outlier Procedure de Barnard Rosner

– Outliers de John M. Cimbala

– Criterion for the Rejection of Doubtful Observations de Benjamin Peirce