Ein Regressionskoeffizient beschreibt die Größe und Richtung der Beziehung zwischen einem Prädiktor und der Antwortvariablen. Koeffizienten sind die Zahlen, mit denen die Werte des Terms in einer Regressionsgleichung multipliziert werden.
Der Koeffizient für einen Term stellt die Änderung des Mittelwerts der Antwortvariablen bei einer Änderung des betreffenden Terms dar, wenn alle übrigen Terme im Modell auf konstanten Werten gehalten werden. Das Vorzeichen des Koeffizienten gibt die Richtung der Beziehung zwischen dem Term und der Antwortvariablen an. Die Größe des Koeffizienten bietet in der Regel einen guten Anhaltspunkt, um die praktische Signifikanz des Effekts eines Terms auf die Antwortvariable zu beurteilen. Die Größe des Koeffizienten liefert jedoch keinen Hinweis darauf, ob ein Term statistisch signifikant ist, da bei den Berechnungen für die Signifikanz auch die Streuung der Daten der Antwortvariablen berücksichtigt wird. Untersuchen Sie den p-Wert für den Term, um die statistische Signifikanz zu ermitteln.
Der Koeffizient des Terms stellt die Änderung des Mittelwerts der Antwortvariablen bei einer Änderung dieses Terms um eine Einheit dar. Wenn der Koeffizient negativ ist, nimmt der Mittelwert der Antwortvariablen bei Zunahme des Terms ab. Wenn der Koeffizient positiv ist, nimmt der Mittelwert der Antwortvariablen bei zunehmendem Term zu.
Ein Manager stellt beispielsweise fest, dass das Ergebnis eines Mitarbeiters in einem Test seiner beruflichen Fähigkeiten mit dem Regressionsmodell y = 130 + 4,3x1 + 10,1x2 prognostiziert werden kann. In der Gleichung steht x1 für die Anzahl der absolvierten Stunden interner Schulung (von 0 bis 20). Die Variable x2 ist eine kategoriale Variable, die gleich 1 ist, wenn der Mitarbeiter durch einen Mentor betreut wird, und gleich 0, wenn dem Mitarbeiter kein Mentor zugeteilt wurde. Die Antwortvariable y stellt das Testergebnis dar. Der Koeffizient für die stetige Variable der Schulungsstunden ist 4,3; er gibt an, dass sich das mittlere Testergebnis mit jeder absolvierten Schulungsstunde um 4,3 Punkte erhöht. Bei Verwendung des Kodierungsschemas (0, 1) gibt der Koeffizient für die kategoriale Variable der Betreuung durch einen Mentor an, dass Mitarbeiter mit einem Mentor Ergebnisse erzielen, die durchschnittlich um 10,1 Punkte höher liegen als bei Mitarbeitern ohne Mentor.
Minitab kann lineare Modelle mit verschiedenen Kodierungsschemas für die stetigen Variablen im Modell anpassen. Diese Kodierungsschemas können den Schätzvorgang und die Interpretation der Ergebnisse verbessern. Darüber hinaus können kodierte Einheiten die Ergebnisse der statistischen Tests ändern, mit denen ermittelt wird, ob die einzelnen Terme signifikante Prädiktoren der Antwortvariablen sind. Wenn in einem Modell kodierte Einheiten verwendet werden, erzeugt die Analyse kodierte Koeffizienten.
Der Standardfehler des Koeffizienten ist ein Schätzwert der Streuung zwischen den Koeffizientenschätzwerten, die Sie erhalten würden, wenn Sie wiederholt Stichproben aus derselben Grundgesamtheit entnehmen würden. Bei der Berechnung wird angenommen, dass der Stichprobenumfang und die zu schätzenden Koeffizienten gleich bleiben, wenn Sie wiederholt Stichproben ziehen.
Verwenden Sie den Standardfehler des Koeffizienten, um die Genauigkeit des Schätzwerts für den Koeffizienten zu ermitteln. Je geringer der Standardfehler ist, desto genauer ist der Schätzwert. Durch Dividieren des Koeffizienten durch seinen Standardfehler wird ein t-Wert berechnet. Wenn der dieser t-Statistik entsprechende p-Wert kleiner als das Signifikanzniveau ist, schlussfolgern Sie, dass der Koeffizient statistisch signifikant ist.
Techniker schätzen beispielsweise im Rahmen eines Tests in Bezug auf solarthermische Energie ein Modell für Isolierungen:
Term | Koef | SE Koef | t-Wert | p-Wert | VIF |
---|---|---|---|---|---|
Konstante | 809 | 377 | 2,14 | 0,042 | |
Süd | 20,81 | 8,65 | 2,41 | 0,024 | 2,24 |
Nord | -23,7 | 17,4 | -1,36 | 0,186 | 2,17 |
Tageszeit | -30,2 | 10,8 | -2,79 | 0,010 | 3,86 |
In diesem Modell wird mit „Nord“ und „Süd“ die Position eines Fokuspunktes in Zoll angegeben. Die Koeffizienten für „Nord“ und „Süd“ ähneln einander in Bezug auf ihre Größe. Der Standardfehler des Koeffizienten für „Süd“ ist kleiner als der Standardfehler des Koeffizienten für „Nord“. Daher ist das Modell in der Lage, den Koeffizienten für „Süd“ genauer zu schätzen.
Der Standardfehler des Koeffizienten für „Nord“ ist annähernd so groß wie der Wert des Koeffizienten selbst. Der resultierende p-Wert ist größer als die gängigen Signifikanzniveaus, und daher können Sie nicht schlussfolgern, dass sich der Koeffizient für „Nord“ von 0 unterscheidet.
Während der Koeffizient für „Süd“ näher als der Koeffizient für „Nord“ an 0 liegt, ist auch der Standardfehler des Koeffizienten für „Süd“ kleiner. Der resultierende p-Wert ist kleiner als gängige Signifikanzniveaus. Da der Schätzwert des Koeffizienten für „Süd“ genauer ist, können Sie schlussfolgern, dass sich der Koeffizient für „Süd“ von 0 unterscheidet.
Die statistische Signifikanz ist ein Kriterium, anhand dessen Sie ein Modell in der multiplen Regression reduzieren können. Weitere Informationen finden Sie unter Modellreduzierung.
Diese Konfidenzintervalle (KIs) sind Bereiche von Werten, die wahrscheinlich den tatsächlichen Wert des Koeffizienten für jeden Term im Modell enthalten.
Da die Stichproben zufällig sind, ist es unwahrscheinlich, dass zwei Stichproben aus einer Grundgesamtheit identische Konfidenzintervalle ergeben. Wenn Sie jedoch viele Zufallsstichproben ziehen, enthält ein gewisser Prozentsatz der resultierenden Konfidenzintervalle den unbekannten Parameter der Grundgesamtheit. Der Prozentsatz dieser Konfidenzintervalle, die den Parameter enthalten, stellt das Konfidenzniveau des Intervalls dar.
Verwenden Sie das Konfidenzintervall, um den Schätzwert des Koeffizienten der Grundgesamtheit für jeden Term im Modell zu beurteilen.
Bei einem 95%-Konfidenzniveau können Sie sich beispielsweise zu 95 % sicher sein, dass das Konfidenzintervall den Wert des Koeffizienten für die Grundgesamtheit enthält. Anhand des Konfidenzintervalls können Sie die praktische Signifikanz Ihrer Ergebnisse beurteilen. Bestimmen Sie anhand Ihrer Fachkenntnisse, ob das Konfidenzintervall Werte umfasst, die in der jeweiligen Situation von praktischer Signifikanz sind. Wenn das Intervall zu breit und damit nicht hilfreich ist, erwägen Sie, den Stichprobenumfang zu vergrößern.
Mit dem t-Wert wird das Verhältnis zwischen dem Koeffizienten und dem zugehörigen Standardfehler gemessen.
Minitab berechnet anhand des t-Werts den p-Wert, mit dem geprüft wird, ob sich der Koeffizient signifikant von 0 unterscheidet.
Anhand des t-Werts können Sie bestimmen, ob die Nullhypothese zurückgewiesen werden muss. Der p-Wert wird jedoch häufiger verwendet, da der Schwellenwert für die Zurückweisung der Nullhypothese unabhängig von den Freiheitsgraden ist. Weitere Informationen zum Verwenden des t-Werts finden Sie unter Verwenden des t-Werts, um zu bestimmen, ob die Nullhypothese zurückzuweisen ist.
Der p-Wert ist ein Wahrscheinlichkeitsmaß für die Anzeichen gegen die Annahme der Nullhypothese. Geringere Wahrscheinlichkeiten liefern stärkere Anzeichen dafür, dass die Nullhypothese nicht zutrifft.
Der Varianzinflationsfaktor (VIF) zeigt, wie groß die Inflation der Varianz eines Koeffizienten aufgrund der Korrelationen unter den Prädiktoren im Modell ist.
Verwenden Sie den VIF-Wert, um zu beschreiben, welcher Grad der Multikollinearität (Korrelation zwischen Prädiktoren) in einer Regressionsanalyse vorliegt. Multikollinearität ist problematisch, da sie zu einer Zunahme der Varianz der Regressionskoeffizienten führen kann, und dies erschwert die Auswertung der individuellen Auswirkung der einzelnen korrelierenden Prädiktoren auf die Antwortvariable.
VIF | Status des Prädiktors |
---|---|
VIF = 1 | Nicht korreliert |
1 < VIF < 5 | Mäßig korreliert |
VIF > 5 | Stark korreliert |
Weitere Informationen zur Multikollinearität und zum Mindern der Auswirkungen der Multikollinearität finden Sie unter Multikollinearität bei der Regression.