Was ist Multikollinearität?

Multikollinearität bei der Regression ist eine Bedingung, die eintritt, wenn Prädiktorvariablen im Modell mit anderen Prädiktorvariablen korrelieren. Eine stark ausgeprägte Multikollinearität ist problematisch, da sie zu einer erhöhten Varianz der Regressionskoeffizienten führen kann, die dadurch instabil werden. Instabile Koeffizienten können u. a. die folgenden Konsequenzen haben:
  • Die Koeffizienten sind anscheinend nicht signifikant, selbst wenn eine signifikante Beziehung zwischen dem Prädiktor und der Antwortvariablen besteht.
  • Die Koeffizienten für stark korrelierte Prädiktoren variieren erheblich von Stichprobe zu Stichprobe.
  • Das Entfernen von stark korrelierten Termen aus dem Modell hat schwerwiegende Auswirkungen auf die geschätzten Koeffizienten der anderen stark korrelierten Terme. Die Koeffizienten der stark korrelierten Terme können sogar ein falsches Vorzeichen aufweisen.

Um die Multikollinearität zu messen, können Sie die Korrelationsstruktur der Prädiktorvariablen untersuchen. Sie können auch die Varianzinflationsfaktoren (VIF) der Regressionskoeffizienten im Modell untersuchen. Mit den VIF-Werten wird gemessen, wie stark die Varianz eines geschätzten Regressionskoeffizienten zunimmt, wenn eine Korrelation zwischen den Prädiktoren besteht. Wenn alle VIF-Werte gleich 1 sind, liegt keine Multikollinearität vor; wenn jedoch einige VIF-Werte größer als 1 sind, korrelieren die Prädiktoren. Wenn ein VIF größer als 5 ist, ist der Regressionskoeffizient für den betreffenden Term nicht genau geschätzt.

Ein weiteres Maß für die Multikollinearität ist die Bedingungszahl. Minitab gibt die Bedingungszahl in der erweiterten Tabelle für die Regression der besten Teilmengen aus. Mit der Bedingungszahl wird die Multikollinearität nicht für einzelne Terme, sondern für ein gesamtes Modell ausgewertet. Je größer die Bedingungszahl, desto stärker ist die Multikollinearität der Terme im Modell. Laut Montgomery, Peck und Vining1 weist eine Bedingungszahl größer als 100 auf moderate Multikollinearität hin. Wenn die Multikollinearität moderat oder schlechter ist, sollten Sie die Beziehungen zwischen den Termen im Modell anhand der VIFs und der Korrelationsstruktur der Daten untersuchen.

Wenn die Korrelation eines Prädiktors mit anderen Prädiktoren nahezu perfekt ist, zeigt Minitab eine Meldung an, in der darauf hingewiesen wird, dass der Term nicht geschätzt werden kann. Die VIF-Werte für Terme, die nicht geschätzt werden können, liegen normalerweise über 1 Milliarde.

Multikollinearität wirkt sich nicht auf die die Güte der Anpassung und die Güte der Prognose aus. Die Koeffizienten (lineare Diskriminanzfunktion) können nicht zuverlässig interpretiert werden, die angepassten (klassifizierten) Werte werden jedoch nicht beeinflusst.

Hinweis

Die Multikollinearität hat in der Diskriminanzanalyse die gleiche Auswirkung wie in der Regression.

Möglichkeiten zum Korrigieren der Multikollinearität

Bei schwerer Multikollinearität bieten sich folgende Lösungen an:
  • Wenn Sie Polynomiale anpassen, subtrahieren Sie den Mittelwert des Prädiktors von den Prädiktorwerten.
  • Entfernen Sie stark korrelierte Prädiktoren aus dem Modell. Da diese redundante Informationen liefern, wird das R2 beim Entfernen dieser Prädiktoren häufig nicht wesentlich reduziert. Erwägen Sie beim Entfernen die Verwendung einer schrittweisen Regression oder der Regression der besten Teilmengen, oder nutzen Sie Fachwissen in Bezug auf den Datensatz, um diese Variablen zu entfernen.
  • Verwenden Sie Partielle kleinste Quadrate oder Hauptkomponentenanalyse. Diese Methode verringert die Anzahl von Prädiktoren auf eine Gruppe von unkorrelierten Komponenten.

Angenommen, ein Spielzeughersteller möchte die Kundenzufriedenheit prognostizieren und bindet „Festigkeit“ und „Bruchsicherheit“ als Prädiktorvariablen in das Regressionsmodell ein. Der Analytiker stellt fest, dass diese beiden Variablen stark negativ korrelieren und einen VIF größer als 5 aufweisen. An dieser Stelle könnte er versuchen, eine der Variablen zu entfernen. Der Analytiker könnte auch Partielle kleinste Quadrate oder Hauptkomponentenanalyse verwenden, um aus diesen verbundenen Variablen eine Komponente „Strapazierfähigkeit“ zu erstellen.

1 Montgomery, D. C., Peck, E. A., und Vining, G. G. (2012). Introduction to linear regression analysis (5th ed.). Hoboken, NJ: Wiley.