Methoden zum Identifizieren von Ausreißern in der Regression und ANOVA

Im Kontext von Analysen, in denen Modelle angepasst werden, sind Ausreißer Beobachtungen, deren Werte der Antwortvariablen oder Prädiktoren über dem Durchschnitt liegen. Minitab stellt mehrere Möglichkeiten zum Identifizieren von Ausreißern einschließlich Residuendiagramme und drei gespeicherten Statistiken bereit: Hebelwirkungen, Cook-Distanz und DFITS. Das Identifizieren von Ausreißern ist deshalb so wichtig, da diese ein Modell erheblich beeinflussen können und so möglicherweise irreführende oder falsche Ergebnisse zur Folge haben können. Wenn Sie einen Ausreißer in den Daten identifiziert haben, sollten Sie diese Beobachtung untersuchen, um ihre Ursache sowie eine angemessene Abhilfe dafür zu finden.
Hoch (Hebelwirkung)

Mit der Hebelwirkung (hoch) wird in Regressions- und ANOVA-Modellen der Abstand vom x-Wert einer Beobachtung zum Durchschnitt der x-Werte aller Beobachtungen in einem Datensatz gemessen. Hiermit können Sie Beobachtungen bestimmen, die im Vergleich mit den übrigen Daten ungewöhnliche Prädiktorwerte aufweisen.

Beobachtungen mit einer großen Hebelwirkung können sich stark auf den angepassten Wert und damit auf das Regressionsmodell auswirken. Eine Beobachtung mit einer großen Hebelwirkung kann beispielsweise bewirken, dass ein signifikanter Koeffizient als nicht signifikant erscheint. Jedoch stellen nicht alle Hebelwirkungspunkte ungewöhnliche Beobachtungen dar.

Untersuchen Sie Beobachtungen mit Hebelwirkungswerten größer als 3p/n, wobei p die Anzahl der Modellterme (einschließlich der Konstanten) und n die Anzahl der Beobachtungen darstellt. Minitab kennzeichnet Beobachtungen mit Hebelwirkungswerten von mehr als 3p/n oder, falls kleiner, 0,99 in der Tabelle der ungewöhnlichen Beobachtungen mit einem X.

Cook-Distanz (D)

Geometrisch betrachtet ist die Cook-Distanz ein Maß für den Abstand zwischen den angepassten Werten mit und ohne die i-te Beobachtung. Hiermit können Sie Beobachtungen bestimmen, die im Vergleich mit den übrigen Daten ungewöhnliche Prädiktorwerte aufweisen, sowie Beobachtungen, an die das Modell nicht gut angepasst ist. Beobachtungen mit einer großen Cook-Distanz können sich stark auf den angepassten Wert und damit auf das Regressionsmodell auswirken.

Untersuchen Sie Beobachtungen, bei denen D größer als F(0,5; p; n-p) – der Median einer F-Verteilung – ist, wobei p die Anzahl der Modellterme (einschließlich der Konstanten) und n die Anzahl der Beobachtungen darstellt. Eine andere Möglichkeit zum Untersuchen von Distanzwerten besteht darin, diese in einem Liniendiagramm grafisch miteinander zu vergleichen. Beobachtungen, deren Distanzwerte im Verhältnis zu denen anderer Beobachtungen groß sind, können einen starken Einfluss ausüben.

DFITS

DFITS stellt die annähernde Anzahl der Standardabweichungen dar, um die sich der angepasste Wert ändert, wenn je eine Beobachtung aus dem Datensatz entfernt und das Modell erneut angepasst wird. Hiermit können Sie Beobachtungen bestimmen, die im Vergleich mit den übrigen Daten ungewöhnliche Prädiktorwerte aufweisen, sowie Beobachtungen, an die das Modell nicht gut angepasst ist. Beobachtungen mit großen DFITS-Werten können sich stark auf den angepassten Wert und damit auf das Regressionsmodell auswirken.

Untersuchen Sie Beobachtungen mit DFITS-Werten größer als 2*sqrt(p/n), wobei p die Anzahl der Modellterme (einschließlich der Konstanten) und n die Anzahl der Beobachtungen darstellt. Eine andere Möglichkeit zum Untersuchen von DFITS-Werten besteht darin, diese in einem Zeitreihendiagramm oder einem Liniendiagramm grafisch miteinander zu vergleichen. Beobachtungen, deren DFITS-Werte im Verhältnis zu denen anderer Beobachtungen groß sind, können einen starken Einfluss ausüben.

Um die Auswirkung einer ungewöhnlichen Beobachtung festzustellen, können Sie das Modell mit der und ohne die Beobachtung anpassen und die Koeffizienten, p-Werte, R2-Werte und sonstige Modellinformationen miteinander vergleichen. Wenn sich das Modell nach Entfernung der ungewöhnlichen Beobachtung signifikant ändert, ermitteln Sie zuerst, ob die Beobachtung einen Dateneingabe- oder Messfehler darstellt. Ermitteln Sie andernfalls, ob Sie eventuell einen wichtigen Term (z. B. einen Wechselwirkungsterm) oder eine wichtige Variable ausgelassen oder das Modell fehlerhaft angegeben haben. Möglicherweise müssen Sie weitere Daten erfassen, um eine Lösung zu finden.