En statistique, le test de Grubbs (nommé d'après Frank E. Grubbs, qui en a fait la publication en 1950[1]), également connu sous le nom de test résiduel normalisé maximum ou test de déviation Student extrême, est un test statistique utilisé pour détecter les valeurs aberrantes dans un ensemble de données univariées supposé provenir d'une population normalement distribuée.

Définition

modifier

Le test de Grubbs est basé sur l'hypothèse de normalité. Autrement dit, il faut d'abord vérifier que les données peuvent être raisonnablement approximées par une distribution normale, ensuite il est possible d'appliquer le test de Grubbs[2].

Le test de Grubbs ne détecte qu'une valeur aberrante à la fois. Cette valeur aberrante est supprimée de l'ensemble de données et le test est itéré jusqu'à ce qu'aucune valeur aberrante ne soit détectée. Cependant, plusieurs itérations modifient les probabilités de détection et le test ne doit pas être utilisé pour des tailles d'échantillon de six ou moins : dans de tels cas, le test marque fréquemment la plupart des points comme des valeurs aberrantes[3].

Le test de Grubbs est défini pour les hypothèses suivantes :

H 0 : Il n'y a pas de valeurs aberrantes dans l'ensemble de données
H a : Il y a exactement une valeur aberrante dans l'ensemble de données

La statistique du test de Grubbs est définie comme

 

avec   et   désignant respectivement la moyenne et l'écart type empiriques. La statistique du test de Grubbs est le plus grand écart absolu par rapport à la moyenne de l'échantillon en unités de l'écart type de l'échantillon.

Il s'agit du test bilatéral, pour lequel l'hypothèse d'absence de valeurs aberrantes est rejetée au niveau de signification α si

 

avec t α/(2 N ), N −2 désignant la valeur critique supérieure de la loi de Student avec N − 2 degrés de liberté et un niveau de signification de α/(2 N ).

Cas unilatéral

modifier

Le test de Grubbs peut également être défini comme un test unilatéral, remplaçant α/(2 N ) par α/ N . Pour tester si la valeur minimale est une valeur aberrante, la statistique de test est

 

avec Y min désignant la valeur minimale. Pour tester si la valeur maximale est une valeur aberrante, la statistique de test est

 

avec Y max désignant la valeur maximale.

Techniques associées

modifier

Plusieurs techniques graphiques peuvent être utilisées pour détecter les valeurs aberrantes. Un diagramme de séquence d'exécution simple, une boîte à moustaches ou un histogramme doit montrer tous les points manifestement éloignés. Un diagramme de probabilité normale peut également être utile.

Voir aussi

modifier

Notes et références

modifier
  1. Grubbs, « Sample criteria for testing outlying observations », Annals of Mathematical Statistics, vol. 21, no 1,‎ , p. 27–58 (DOI 10.1214/aoms/1177729885)
  2. Quoted from the Engineering and Statistics Handbook, paragraph 1.3.5.17, http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h.htm
  3. (en) Adikaram, Hussein, Effenberger et Becker, « Data Transformation Technique to Improve the Outlier Detection Power of Grubbs' Test for Data Expected to Follow Linear Relation », Journal of Applied Mathematics, vol. 2015,‎ , p. 1–9 (DOI 10.1155/2015/708948)

Bibliographie

modifier
  • Grubbs, « Procedures for Detecting Outlying Observations in Samples », Technometrics, Technometrics, Vol. 11, No. 1, vol. 11, no 1,‎ , p. 1–21 (DOI 10.2307/1266761, JSTOR 1266761)
  • Stefansky, « Rejecting Outliers in Factorial Designs », Technometrics, Technometrics, Vol. 14, No. 2, vol. 14, no 2,‎ , p. 469–479 (DOI 10.2307/1267436, JSTOR 1267436)

Cet article incorpore du matériel en domaine public du https://www.nist.gov/.