Was ist Multikollinearität?

Multikollinearität bei der Regression ist eine Bedingung, die eintritt, wenn Prädiktorvariablen im Modell mit anderen Prädiktorvariablen korrelieren. Eine stark ausgeprägte Multikollinearität ist problematisch, da sie zu einer erhöhten Varianz der Regressionskoeffizienten führen kann, die dadurch instabil werden. Instabile Koeffizienten können u. a. die folgenden Konsequenzen haben:
  • Die Koeffizienten sind anscheinend nicht signifikant, selbst wenn eine signifikante Beziehung zwischen dem Prädiktor und der Antwortvariablen besteht.
  • Die Koeffizienten für stark korrelierte Prädiktoren variieren erheblich von Stichprobe zu Stichprobe.
  • Das Entfernen von stark korrelierten Termen aus dem Modell hat schwerwiegende Auswirkungen auf die geschätzten Koeffizienten der anderen stark korrelierten Terme. Die Koeffizienten der stark korrelierten Terme können sogar ein falsches Vorzeichen aufweisen.

Um die Multikollinearität zu messen, können Sie die Korrelationsstruktur der Prädiktorvariablen untersuchen. Sie können auch die Varianzinflationsfaktoren (VIF) untersuchen. Mit den VIF-Werten wird gemessen, wie stark die Varianz eines geschätzten Regressionskoeffizienten zunimmt, wenn eine Korrelation zwischen den Prädiktoren besteht. Wenn alle VIF-Werte gleich 1 sind, liegt keine Multikollinearität vor; wenn jedoch einige VIF-Werte größer als 1 sind, korrelieren die Prädiktoren. Wenn ein VIF größer als 5 ist, ist der Regressionskoeffizient für den betreffenden Term nicht genau geschätzt. Wenn die Korrelation eines Prädiktors mit anderen Prädiktoren nahezu perfekt ist, zeigt Minitab eine Meldung an, in der darauf hingewiesen wird, dass der Term nicht geschätzt werden kann. Die VIF-Werte für Terme, die nicht geschätzt werden können, liegen normalerweise über 1 Milliarde.

Multikollinearität wirkt sich nicht auf die die Güte der Anpassung und die Güte der Prognose aus. Die Koeffizienten (lineare Diskriminanzfunktion) können nicht zuverlässig interpretiert werden, die angepassten (klassifizierten) Werte werden jedoch nicht beeinflusst.

Hinweis

Die Multikollinearität hat in der Diskriminanzanalyse die gleiche Auswirkung wie in der Regression.

So entfernt Minitab stark korrelierte Prädiktoren aus der Regressionsgleichung

Minitab führt die folgenden Schritte aus, um stark korrelierte Prädiktoren aus einer Regressionsgleichung zu entfernen:
  1. Minitab führt eine QR-Zerlegung für die x-Matrix durch.
    Hinweis

    Das R2 kann mit Hilfe der QR-Zerlegung schneller als mit der Regression der kleinsten Quadrate berechnet werden.

  2. Minitab führt eine Regression eines Prädiktors auf alle anderen Prädiktoren durch und berechnet den R2-Wert. Wenn 1 – R2 < 4 * 2,22e-016, besteht der Prädiktor den Test nicht, und er wird aus dem Modell entfernt.
  3. Minitab wiederholt die Schritte 1 und 2 für die verbleibenden Prädiktoren.

Beispiel

Angenommen, ein Modell enthält die Prädiktoren x1, x2, x3, x4 und x5 sowie die Antwortvariable y. Minitab verfährt folgendermaßen:
  1. Minitab führt eine Regression von x5 auf x1-x4 aus. Wenn 1 - R2 größer als 4 * 2,22e-016 ist, verbleibt X5 in der Gleichung. X5 besteht den Test und verbleibt in der Gleichung.
  2. Minitab führt eine Regression von x4 auf x1, x2, x3 und x5 aus. Angenommen, 1 – R2 ist für diese Regression größer als 4 * 2,22e-016, und der Prädiktor wird somit in der Gleichung beibehalten.
  3. Minitab führt eine Regression von X3 für X1, X2, X4 und X5 durch und berechnet den R2-Wert. X3 besteht den Test nicht und wird daher aus der Gleichung entfernt.
  4. Minitab nimmt eine erneute QR-Zerlegung für die X-Matrix vor und führt eine Regression von X2 für die verbleibenden Prädiktoren X1, X4 und X5 durch. X2 besteht den Test.
  5. Minitab führt eine Regression von X1 für X2, X4 und X5 aus. X1 besteht den Test nicht und wird aus der Gleichung entfernt.

Minitab führt eine Regression von y auf x2, x4, x5 aus. Die Ergebnisse enthalten eine Meldung, die besagt, dass die Prädiktoren x1 und x3 nicht geschätzt werden können und aus dem Modell entfernt wurden.

Hinweis

Sie können den Unterbefehl TOLERANCE mit dem Sessionbefehl REGRESS verwenden, um zu erzwingen, dass Minitab einen Prädiktor im Modell beibehält, der stark mit einem anderen Prädiktor korreliert. Das Absenken der Toleranz ist jedoch nicht ohne Risiko, da so möglicherweise numerisch ungenaue Ergebnisse entstehen.

Möglichkeiten zum Korrigieren der Multikollinearität

Bei starker Multikollinearität bieten sich folgende Lösungen an:
  • Wenn Sie Polynomiale anpassen, subtrahieren Sie den Mittelwert des Prädiktors von den Prädiktorwerten.
  • Entfernen Sie stark korrelierte Prädiktoren aus dem Modell. Da diese redundante Informationen liefern, wird der Wert für das R2 beim Entfernen dieser Prädiktoren häufig nicht entscheidend reduziert. Erwägen Sie beim Entfernen die Verwendung einer schrittweisen Regression oder der Regression der besten Teilmengen, oder nutzen Sie Fachwissen in Bezug auf den Datensatz, um diese Variablen zu entfernen.
  • Verwenden Sie Partielle kleinste Quadrate oder Hauptkomponentenanalyse. Diese Methode verringert die Anzahl von Prädiktoren auf eine Gruppe von unkorrelierten Komponenten.

Angenommen, ein Spielzeughersteller möchte die Kundenzufriedenheit prognostizieren und bindet „Festigkeit“ und „Bruchsicherheit“ als Prädiktorvariablen in das Regressionsmodell ein. Der Analytiker stellt fest, dass diese beiden Variablen stark negativ korrelieren und einen VIF größer als 5 aufweisen. An dieser Stelle könnte er versuchen, eine der Variablen zu entfernen. Der Analytiker könnte auch Partielle kleinste Quadrate oder Hauptkomponentenanalyse verwenden, um aus diesen verbundenen Variablen eine Komponente „Strapazierfähigkeit“ zu erstellen.

Durch Ihre Nutzung dieser Website stimmen Sie zu, dass Cookies verwendet werden. Cookies dienen zu Analysezwecken und zum Bereitstellen personalisierter Inhalte.  Lesen Sie unsere Richtlinien