Methoden und Formeln für Test auf Ausreißer

Wählen Sie die gewünschte Methode oder Formel aus.

In diesem Thema

Dixon-Teststatistik
Grubb-Teststatistik
p-Werte für Dixon-Teststatistik
p-Werte für Grubb-Teststatistik

Dixon-Teststatistik

Mit dem Dixon-Test wird ermittelt, ob der extremste Wert in einer Stichprobe ein Ausreißer ist. Der Dixon-Test umfasst eine Auswahl von Teststatistiken, die die potenziellen Verdeckungseffekte anderer Extremwerte in der Stichprobe ausgleichen. Die Dixon-Teststatistik wird durch r_ij angegeben, wobei die Indizes i und j Folgendes angeben:

i gibt die Anzahl der Extremwerte auf derselben Seite (untere oder obere Seite) der Daten wie der vermutete Ausreißer an. i = 1 oder 2.
j gibt die Anzahl der Extremwerte auf der entgegengesetzten Seite der Daten an. j = 0, 1 oder 2.

Wenn der vermutete Ausreißer beispielsweise der kleinste Wert in der Stichprobe ist, diese aber auch zwei ungewöhnlich große Werte enthält, dann ist r₁₂ die entsprechende Teststatistik. Die Teststatistik r₁₀ (auch als Dixon-Q- bezeichnet) ist geeignet, wenn die Stichprobe nur einen Extremwert enthält.

Eine Tabelle der kritischen Werte für die Dixon-Teststatistiken findet sich in Rorabacher (1991).

Einseitige Teststatistik

Die Formel für den einseitigen Test hängt davon ab, ob Sie den kleinsten Wert, y_i, oder den größten Wert, y_n, testen. Um zu testen, ob y_i der Ausreißer ist, verwenden Sie die folgende Formel:

Um zu testen, ob y_n der Ausreißer ist, verwenden Sie die folgende Formel:

Beidseitige Teststatistik

Wir definieren die beidseitige Teststatistik gemäß Kings (1953) Definition der beidseitigen Teststatistik in Bezug auf r₁₀. Die beidseitige Teststatistik wird wie folgt angegeben:

Notation

Begriff	Beschreibung
r_ij	Dixon-Teststatistik (i = 1, 2; j = 0, 1, 2)
y_i	i-ter kleinster Wert in der Stichprobe
n	Anzahl der Beobachtungen in der Stichprobe

Literaturhinweise

Rorabacher, D. B. (1991). „Statistical Treatment for Rejection of Deviant Values: Critical Values of Dixon Q Parameter and Related Subrange Ratios at the 95 percent Confidence Level“, Analytic Chemistry, 83, 2, 139-146.
King, E. P. (1953). „On Some Procedures for the Rejection of Suspected Data“, Journal of the American Statistical Association, Vol. 48, No. 263, 531-533.

Grubb-Teststatistik

Formel für die einseitige Statistik

Wenn Sie ermitteln möchten, ob der kleinste Datenwert ein Ausreißer ist, wird die Teststatistik G wie folgt angegeben:

Wenn Sie ermitteln möchten, ob der größte Datenwert ein Ausreißer ist, wird G wie folgt angegeben:

Formel für die beidseitige Statistik

Für eine beidseitige Hypothese wird G wie folgt angegeben:

Notation

Begriff	Beschreibung
	Stichprobenmittelwert
y_i	i-ter kleinster Wert in der Stichprobe
s	Standardabweichung der Stichprobe
n	Anzahl der Beobachtungen in der Stichprobe

p-Werte für Dixon-Teststatistik

Unter der Annahme, dass die Daten normalverteilt sind, weisen die Dixon-Statistiken unabhängig davon, ob Sie den kleinsten oder den größten Wert testen, stets dieselbe Verteilung auf. Daher können wir uns, ohne an Allgemeingültigkeit zu verlieren, auf die Statistiken zum Erkennen von Ausreißern am oberen Ende der Daten konzentrieren, und zwar:

Kumulative Verteilungsfunktion für die Teststatistik

Gemäß Dixon (1951) und McBane (2006) können die Dichtefunktionen der Verteilung der Teststatistik r_ij wie folgt ausgedrückt werden:

wobei C der normalisierende Faktor ist, angegeben durch:

und das Jacobi-J(x,v,r) wird angegeben durch:

Unter Verwendung der Transformation, bei der t = (1 + r² ) v² / 2 und u² = 3x² / 2, kann die Dichtefunktion wie folgt neu ausgedrückt werden:

Minitab wertet das innere Integral mit Hilfe einer 30-Punkt-Gauss-Laguerre-Quadratur aus. Minitab wertet das äußere Integral mit Hilfe einer 30-Punkt-Gauss-Hermite-Quadratur aus.

Die kumulativen Verteilungsfunktionen für die Familie von Teststatistiken werden angegeben durch:

Ähnlich wie McBane (2006) berechnet Minitab F_ij(r) mit Hilfe einer 16-Punkt-Gauss-Legendre-Quadratur.

p-Wert für einen einseitigen Test

Für jedes Paar von Indizes (i, j) wird der p-Wert für die beobachtete einseitige Statistik r angegeben durch:

p-Wert für einen einseitigen Test

Unter Verwendung von Kings (1953) Ergebnis wird der p-Wert für die beobachtete beidseitige Statistik r für jedes Paar von Indizes (i, j) angegeben durch:

Außerdem beobachtet King, dass die obige Approximation zur Gleichheit wird für .

Notation

Begriff	Beschreibung
r_ij	Dixon-Teststatistik, wobei i = 1, 2; j = 0, 1, 2
y_i	i-ter kleinster Wert in der Stichprobe
n	Anzahl der Beobachtungen in der Stichprobe

Literaturhinweise

W.J. Dixon (1951). „Ratios Involving Extreme Values“, Annals of Mathematical Statistics, 22(1), 68-78.

E.P. King (1953). „On Some Procedures for the Rejection of Suspected Data“, Journal of the American Statistical Association, Vol. 48, No. 263, Seiten 531-533.

G.C. McBane (2006). „Programs to Compute Distribution Functions and Critical Values for Extreme Value Ratios for Outlier Detection“, Journal of Statistical Software, Vol. 16, Nr. 3, Seiten 1-9.

p-Werte für Grubb-Teststatistik

Formel für einen einseitigen Test

Der p-Wert für einen einseitigen Test ist:

Formel für einen beidseitigen Test

Der p-Wert für einen beidseitigen Test ist:

Exakte und annähernde p-Werte

Wenn Folgendes wahr ist, ist der p-Wert exakt.

Wenn nicht, stellt der berechnete p-Wert eine Obergrenze für den exakten p-Wert dar. Die Obergrenze ist jedoch eine sehr gute Annäherung an den exakten p-Wert.

Notation

Begriff	Beschreibung
G	Grubb-Teststatistik
n	Anzahl der Beobachtungen in der Stichprobe
T	eine Zufallsvariable, die eine t-Verteilung mit n – 2 Freiheitsgraden aufweist