Koeffiziententabelle für Regressionsmodell anpassen und Lineare Regression

Hier finden Sie Definitionen und Anleitungen zur Interpretation für jede Statistik in der Koeffiziententabelle.

Koeffizienten

Ein Regressionskoeffizient beschreibt die Größe und Richtung der Beziehung zwischen einem Prädiktor und der Antwortvariablen. Koeffizienten sind die Zahlen, mit denen die Werte des Terms in einer Regressionsgleichung multipliziert werden.

Interpretation

Der Koeffizient für einen Term stellt die Änderung des Mittelwerts der Antwortvariablen bei einer Änderung des betreffenden Terms dar, wenn alle übrigen Terme im Modell auf konstanten Werten gehalten werden. Das Vorzeichen des Koeffizienten gibt die Richtung der Beziehung zwischen dem Term und der Antwortvariablen an. Die Größe des Koeffizienten bietet in der Regel einen guten Anhaltspunkt, um die praktische Signifikanz des Effekts eines Terms auf die Antwortvariable zu beurteilen. Die Größe des Koeffizienten liefert jedoch keinen Hinweis darauf, ob ein Term statistisch signifikant ist, da bei den Berechnungen für die Signifikanz auch die Streuung der Daten der Antwortvariablen berücksichtigt wird. Untersuchen Sie den p-Wert für den Term, um die statistische Signifikanz zu ermitteln.

Die Interpretation der einzelnen Koeffizienten hängt davon ab, ob es sich um einen Koeffizienten für eine stetige oder für eine kategoriale Variable handelt; dies wird im Folgenden weiter ausgeführt:
Stetige Variable

Der Koeffizient des Terms stellt die Änderung des Mittelwerts der Antwortvariablen bei einer Änderung dieses Terms um eine Einheit dar. Wenn der Koeffizient negativ ist, nimmt der Mittelwert der Antwortvariablen bei Zunahme des Terms ab. Wenn der Koeffizient positiv ist, nimmt der Mittelwert der Antwortvariablen bei zunehmendem Term zu.

Kategoriale Variable
Für jede Stufe der kategorialen Variablen mit Ausnahme einer Stufe wird ein Koeffizient aufgeführt (es sei denn, Sie wählen im Unterdialogfeld Ergebnisse aus, dass Koeffizienten für alle Stufen angezeigt werden sollen). Der Koeffizient für eine Stufe der kategorialen Variablen muss auf null festgelegt werden, damit das Modell angepasst werden kann. Die Interpretation des Koeffizienten für eine kategoriale Variable hängt vom Kodierungsschema ab, das für kategoriale Variablen ausgewählt wurde. Das Kodierungsschema kann im Unterdialogfeld Kodierung geändert werden.
  • Beim Kodierungsschema (0, 1) stellen die einzelnen Koeffizienten die Differenz zwischen den einzelnen Stufenmittelwerten und dem Mittelwert der Referenzstufe dar. Der Koeffizient für die Referenzstufe wird in der Koeffiziententabelle nicht angezeigt.
  • Beim Kodierungsschema (−1, 0, +1) stellen die einzelnen Koeffizienten die Differenz zwischen den einzelnen Stufenmittelwerten und dem Gesamtmittelwert dar.

Ein Manager stellt beispielsweise fest, dass das Ergebnis eines Mitarbeiters in einem Test seiner beruflichen Fähigkeiten mit dem Regressionsmodell y = 130 + 4,3x1 + 10,1x2 prognostiziert werden kann. In der Gleichung steht x1 für die Anzahl der absolvierten Stunden interner Schulung (von 0 bis 20). Die Variable x2 ist eine kategoriale Variable, die gleich 1 ist, wenn der Mitarbeiter durch einen Mentor betreut wird, und gleich 0, wenn dem Mitarbeiter kein Mentor zugeteilt wurde. Die Antwortvariable y stellt das Testergebnis dar. Der Koeffizient für die stetige Variable der Schulungsstunden ist 4,3; er gibt an, dass sich das mittlere Testergebnis mit jeder absolvierten Schulungsstunde um 4,3 Punkte erhöht. Bei Verwendung des Kodierungsschemas (0, 1) gibt der Koeffizient für die kategoriale Variable der Betreuung durch einen Mentor an, dass Mitarbeiter mit einem Mentor Ergebnisse erzielen, die durchschnittlich um 10,1 Punkte höher liegen als bei Mitarbeitern ohne Mentor.

Kodierte Koeffizienten

Minitab kann lineare Modelle mit verschiedenen Kodierungsschemas für die stetigen Variablen im Modell anpassen. Diese Kodierungsschemas können den Schätzvorgang und die Interpretation der Ergebnisse verbessern. Darüber hinaus können kodierte Einheiten die Ergebnisse der statistischen Tests ändern, mit denen ermittelt wird, ob die einzelnen Terme signifikante Prädiktoren der Antwortvariablen sind. Wenn in einem Modell kodierte Einheiten verwendet werden, erzeugt die Analyse kodierte Koeffizienten.

Interpretation

Die von Minitab verwendete Kodierungsmethode beeinflusst wie folgt den Schätzvorgang und die Interpretation der kodierten Koeffizienten:
Kodierung von -1 bzw. +1 für tiefe bzw. hohe Stufe festlegen
Bei dieser Methode werden die Variablen sowohl zentriert als auch skaliert. Diese Methode wird in der Versuchsplanung (DOE) von Minitab verwendet. Die Koeffizienten stellen die Änderung des Mittelwerts der Antwortvariablen bei den angegebenen Hoch- und Tief-Werten dar.
Mittelwert subtrahieren, dann durch Standardabweichung dividieren
Bei dieser Methode werden die Variablen sowohl zentriert als auch skaliert. Jeder Koeffizient stellt die erwartete Änderung der Antwortvariablen bei einer Änderung der Variablen um eine Standardabweichung dar.
Mittelwert subtrahieren
Bei dieser Methode werden die Variablen zentriert. Jeder Koeffizient stellt die erwartete Änderung der Antwortvariablen bei einer Änderung der Variablen um eine Einheit dar, wobei die ursprüngliche Messskala verwendet wird. Wenn Sie den Mittelwert subtrahieren, ist der Koeffizient für die Konstante ein Schätzwert des Mittelwerts der Antwortvariablen, wenn alle Prädiktoren auf ihre Mittelwerte festgelegt sind.
Durch Standardabweichung dividieren
Bei dieser Methode werden die Variablen skaliert. Jeder Koeffizient stellt die erwartete Änderung der Antwortvariablen bei einer Änderung der Variablen um eine Standardabweichung dar.
Angegebenen Wert subtrahieren, dann durch einen weiteren Wert dividieren
Die Auswirkung und Interpretation dieser Methode hängen von den von Ihnen eingegebenen Werten ab.

SE Koef

Der Standardfehler des Koeffizienten ist ein Schätzwert der Streuung zwischen den Koeffizientenschätzwerten, die Sie erhalten würden, wenn Sie wiederholt Stichproben aus derselben Grundgesamtheit entnehmen würden. Bei der Berechnung wird angenommen, dass der Stichprobenumfang und die zu schätzenden Koeffizienten gleich bleiben, wenn Sie wiederholt Stichproben ziehen.

Interpretation

Verwenden Sie den Standardfehler des Koeffizienten, um die Genauigkeit des Schätzwerts für den Koeffizienten zu ermitteln. Je geringer der Standardfehler ist, desto genauer ist der Schätzwert. Durch Dividieren des Koeffizienten durch seinen Standardfehler wird ein t-Wert berechnet. Wenn der dieser t-Statistik entsprechende p-Wert kleiner als das Signifikanzniveau ist, schlussfolgern Sie, dass der Koeffizient statistisch signifikant ist.

Techniker schätzen beispielsweise im Rahmen eines Tests in Bezug auf solarthermische Energie ein Modell für Isolierungen:

Regressionsanalyse: Isolierung vs. Süd; Nord; Tageszeit

Koeffizienten

TermKoefSE Koeft-Wertp-WertVIF
Konstante8093772,140,042 
Süd20,818,652,410,0242,24
Nord-23,717,4-1,360,1862,17
Tageszeit-30,210,8-2,790,0103,86

In diesem Modell wird mit „Nord“ und „Süd“ die Position eines Fokuspunktes in Zoll angegeben. Die Koeffizienten für „Nord“ und „Süd“ ähneln einander in Bezug auf ihre Größe. Der Standardfehler des Koeffizienten für „Süd“ ist kleiner als der Standardfehler des Koeffizienten für „Nord“. Daher ist das Modell in der Lage, den Koeffizienten für „Süd“ genauer zu schätzen.

Der Standardfehler des Koeffizienten für „Nord“ ist annähernd so groß wie der Wert des Koeffizienten selbst. Der resultierende p-Wert ist größer als die gängigen Signifikanzniveaus, und daher können Sie nicht schlussfolgern, dass sich der Koeffizient für „Nord“ von 0 unterscheidet.

Während der Koeffizient für „Süd“ näher als der Koeffizient für „Nord“ an 0 liegt, ist auch der Standardfehler des Koeffizienten für „Süd“ kleiner. Der resultierende p-Wert ist kleiner als gängige Signifikanzniveaus. Da der Schätzwert des Koeffizienten für „Süd“ genauer ist, können Sie schlussfolgern, dass sich der Koeffizient für „Süd“ von 0 unterscheidet.

Die statistische Signifikanz ist ein Kriterium, anhand dessen Sie ein Modell in der multiplen Regression reduzieren können. Weitere Informationen finden Sie unter Modellreduzierung.

Konfidenzintervall für Koeffizient (95%-KI)

Diese Konfidenzintervalle (KIs) sind Bereiche von Werten, die wahrscheinlich den tatsächlichen Wert des Koeffizienten für jeden Term im Modell enthalten.

Da die Stichproben zufällig sind, ist es unwahrscheinlich, dass zwei Stichproben aus einer Grundgesamtheit identische Konfidenzintervalle ergeben. Wenn Sie jedoch viele Zufallsstichproben ziehen, enthält ein gewisser Prozentsatz der resultierenden Konfidenzintervalle den unbekannten Parameter der Grundgesamtheit. Der Prozentsatz dieser Konfidenzintervalle, die den Parameter enthalten, stellt das Konfidenzniveau des Intervalls dar.

Das Konfidenzintervall setzt sich aus den folgenden zwei Teilen zusammen:
Punktschätzung
Mit diesem einzelnen Wert wird der Parameter der Grundgesamtheit unter Verwendung der Stichprobendaten geschätzt. Das Konfidenzintervall wird um die Punktschätzung zentriert.
Fehlerspanne
Die Fehlerspanne definiert die Breite des Konfidenzintervalls, und sie wird durch die beobachtete Streuung in der Stichprobe, den Stichprobenumfang und das Konfidenzniveau bestimmt. Zum Berechnen der Obergrenze des Konfidenzintervalls wird die Fehlerspanne zur Punktschätzung addiert. Zum Berechnen der Untergrenze des Konfidenzintervalls wird die Fehlerspanne von der Punktschätzung subtrahiert.

Interpretation

Verwenden Sie das Konfidenzintervall, um den Schätzwert des Koeffizienten der Grundgesamtheit für jeden Term im Modell zu beurteilen.

Bei einem 95%-Konfidenzniveau können Sie sich beispielsweise zu 95 % sicher sein, dass das Konfidenzintervall den Wert des Koeffizienten für die Grundgesamtheit enthält. Anhand des Konfidenzintervalls können Sie die praktische Signifikanz Ihrer Ergebnisse beurteilen. Bestimmen Sie anhand Ihrer Fachkenntnisse, ob das Konfidenzintervall Werte umfasst, die in der jeweiligen Situation von praktischer Signifikanz sind. Wenn das Intervall zu breit und damit nicht hilfreich ist, erwägen Sie, den Stichprobenumfang zu vergrößern.

t-Wert

Mit dem t-Wert wird das Verhältnis zwischen dem Koeffizienten und dem zugehörigen Standardfehler gemessen.

Interpretation

Minitab berechnet anhand des t-Werts den p-Wert, mit dem geprüft wird, ob sich der Koeffizient signifikant von 0 unterscheidet.

Anhand des t-Werts können Sie bestimmen, ob die Nullhypothese zurückgewiesen werden muss. Der p-Wert wird jedoch häufiger verwendet, da der Schwellenwert für die Zurückweisung der Nullhypothese unabhängig von den Freiheitsgraden ist. Weitere Informationen zum Verwenden des t-Werts finden Sie unter Verwenden des t-Werts, um zu bestimmen, ob die Nullhypothese zurückzuweisen ist.

p-Wert – Koeffizient

Der p-Wert ist ein Wahrscheinlichkeitsmaß für die Anzeichen gegen die Annahme der Nullhypothese. Geringere Wahrscheinlichkeiten liefern stärkere Anzeichen dafür, dass die Nullhypothese nicht zutrifft.

Interpretation

Um zu bestimmen, ob die Assoziation zwischen der Antwortvariablen und jedem Term im Modell statistisch signifikant ist, vergleichen Sie den p-Wert für den Term mit dem Signifikanzniveau, um die Nullhypothese auszuwerten. Die Nullhypothese besagt, dass der Koeffizient des Terms gleich null ist, was bedeutet, dass keine Assoziation zwischen dem Term und der Antwortvariablen besteht. In der Regel ist ein Signifikanzniveau (als α oder Alpha bezeichnet) von 0,05 gut geeignet. Ein Signifikanzniveau von 0,05 bedeutet ein Risiko, dass auf eine vorhandene Assoziation geschlossen wird, während tatsächlich keine vorhanden ist, von 5 %.
p-Wert ≤ α: Die Assoziation ist statistisch signifikant
Wenn der p-Wert kleiner oder gleich dem Signifikanzniveau ist, können Sie schlussfolgern, dass eine statistisch signifikante Assoziation zwischen der Antwortvariablen und dem Term besteht.
p-Wert > α: Die Assoziation ist statistisch nicht signifikant
Wenn der p-Wert größer als das Signifikanzniveau ist, können Sie nicht schlussfolgern, dass eine statistisch signifikante Assoziation zwischen der Antwortvariablen und dem Term besteht. Es empfiehlt sich möglicherweise, das Modell ohne den Term erneut anzupassen.
Wenn mehrere Prädiktoren ohne eine statistisch signifikante Assoziation mit der Antwortvariablen vorhanden sind, können Sie das Modell reduzieren, indem Sie Terme einzeln nacheinander entfernen. Weitere Informationen zum Entfernen von Termen aus dem Modell finden Sie unter Modellreduzierung.
Wenn ein Modellterm statistisch signifikant ist, hängt die Interpretation von der Art des Terms ab. Die Interpretationen lauten wie folgt:
  • Wenn ein Koeffizient für eine stetige Variable signifikant ist, besteht eine Assoziation zwischen Änderungen des Werts der Variablen und Änderungen des Mittelwerts der Antwortvariablen.
  • Wenn ein Koeffizient für eine kategoriale Stufe signifikant ist, unterscheidet sich der Mittelwert für die betreffende Stufe entweder vom Gesamtmittelwert (Kodierung -1; 0; +1) oder vom Mittelwert der Referenzstufe (Kodierung 0; 1).
  • Wenn ein Koeffizient für einen Wechselwirkungsterm signifikant ist, hängt die Beziehung zwischen einem Faktor und der Antwortvariablen von den anderen Faktoren im Term ab. In diesem Fall sollten Sie die Haupteffekte nicht interpretieren, ohne dabei den Wechselwirkungseffekt zu berücksichtigen.
  • Wenn ein Koeffizient für einen Polynomialterm signifikant ist, können Sie schlussfolgern, dass die Daten eine Krümmung aufweisen.

VIF

Der Varianzinflationsfaktor (VIF) zeigt, wie groß die Inflation der Varianz eines Koeffizienten aufgrund der Korrelationen unter den Prädiktoren im Modell ist.

Interpretation

Verwenden Sie den VIF-Wert, um zu beschreiben, welcher Grad der Multikollinearität (Korrelation zwischen Prädiktoren) in einer Regressionsanalyse vorliegt. Multikollinearität ist problematisch, da sie zu einer Zunahme der Varianz der Regressionskoeffizienten führen kann, und dies erschwert die Auswertung der individuellen Auswirkung der einzelnen korrelierenden Prädiktoren auf die Antwortvariable.

Interpretieren Sie den VIF anhand der folgenden Richtlinien:
VIF Status des Prädiktors
VIF = 1 Nicht korreliert
1 < VIF < 5 Mäßig korreliert
VIF > 5 Stark korreliert
Ein VIF-Wert über 5 weist darauf hin, dass der Regressionskoeffizient aufgrund starker Multikollinearität ungenau geschätzt wurde.

Weitere Informationen zur Multikollinearität und zum Mindern der Auswirkungen der Multikollinearität finden Sie unter Multikollinearität bei der Regression.