Ein Regressionskoeffizient beschreibt die Größe und Richtung der Beziehung zwischen einem Prädiktor und der Antwortvariablen. Koeffizienten sind die Zahlen, mit denen die Werte des Terms in einer Regressionsgleichung multipliziert werden.
Verwenden Sie den Koeffizienten, um zu ermitteln, ob eine Änderung in einer Prädiktorvariablen die Wahrscheinlichkeit des Ereignisses vergrößert oder verringert. Der geschätzte Koeffizient für einen Prädiktor stellt die Änderung in der Linkfunktion bei einer Änderung des Prädiktors um eine Einheit dar, wenn die anderen Prädiktoren im Modell auf konstanten Werten gehalten werden. Die Beziehung zwischen dem Koeffizienten und der Wahrscheinlichkeit hängt von verschiedenen Aspekten der Analyse ab, u. a. von der Linkfunktion, dem Referenzereignis für die Antwortvariable und den Referenzstufen für die kategorialen Prädiktoren, die im Modell enthalten sind. Im Allgemeinen steigern positive Koeffizienten die Wahrscheinlichkeit des Ereignisses, während negative Koeffizienten die Wahrscheinlichkeit des Ereignisses verringern. Ein geschätzter Koeffizient nahe 0 weist darauf hin, dass der Effekt des Prädiktors gering ist.
Die Interpretation der geschätzten Koeffizienten für die kategorialen Prädiktoren bezieht sich auf die Referenzstufe des Prädiktors. Positive Koeffizienten weisen darauf hin, dass das Ereignis auf dieser Stufe des Prädiktors wahrscheinlicher als auf der Referenzstufe des Faktors ist. Negative Koeffizienten weisen darauf hin, dass das Ereignis auf dieser Stufe des Prädiktors weniger wahrscheinlich als auf der Referenzstufe ist.
Die Logit-Linkfunktion stellt die natürlichste Interpretation der geschätzten Koeffizienten dar. Aus diesem Grund wird sie in Minitab als Standardkopplung verwendet. Bei der Interpretation wird von der Tatsache ausgegangen, dass die Chance eines Referenzereignisses P(Ereignis)/P(Nicht-Ereignis) entspricht, und angenommen, dass die anderen Prädiktoren konstant bleiben. Je größer die logarithmierten Chance, desto wahrscheinlicher ist das Referenzereignis. Positive Koeffizienten weisen daher darauf hin, dass das Ereignis wahrscheinlicher wird, und negative Koeffizienten weisen darauf hin, dass das Ereignis weniger wahrscheinlich wird. Eine Übersicht über die Interpretationen für die verschiedenen Prädiktortypen folgt.
Der Standardfehler des Koeffizienten ist ein Schätzwert der Streuung zwischen den Koeffizientenschätzwerten, die Sie erhalten würden, wenn Sie wiederholt Stichproben aus derselben Grundgesamtheit entnehmen würden. Bei der Berechnung wird angenommen, dass der Stichprobenumfang und die zu schätzenden Koeffizienten gleich bleiben, wenn Sie wiederholt Stichproben ziehen.
Verwenden Sie den Standardfehler des Koeffizienten, um die Präzision des Schätzwerts für den Koeffizienten zu ermitteln. Je geringer der Standardfehler ist, desto präziser ist der Schätzwert.
Diese Konfidenzintervalle (KIs) sind Bereiche von Werten, die wahrscheinlich den tatsächlichen Wert des Koeffizienten für jeden Term im Modell enthalten. Bei der Berechnung der Konfidenzintervalle wird die Normalverteilung verwendet. Das Konfidenzintervall ist genau, wenn der Stichprobenumfang ausreichend groß ist, so dass die Verteilung der Stichprobenkoeffizienten einer Normalverteilung folgt.
Da die Stichproben zufällig sind, ist es unwahrscheinlich, dass zwei Stichproben aus einer Grundgesamtheit identische Konfidenzintervalle ergeben. Wenn Sie jedoch viele Zufallsstichproben ziehen, enthält ein gewisser Prozentsatz der resultierenden Konfidenzintervalle den unbekannten Parameter der Grundgesamtheit. Der Prozentsatz dieser Konfidenzintervalle, die den Parameter enthalten, stellt das Konfidenzniveau des Intervalls dar.
Verwenden Sie das Konfidenzintervall, um den Schätzwert des Koeffizienten der Grundgesamtheit für jeden Term im Modell zu beurteilen.
Bei einem 95%-Konfidenzniveau können Sie sich beispielsweise zu 95 % sicher sein, dass das Konfidenzintervall den Wert des Koeffizienten für die Grundgesamtheit enthält. Anhand des Konfidenzintervalls können Sie die praktische Signifikanz Ihrer Ergebnisse beurteilen. Bestimmen Sie anhand Ihrer Fachkenntnisse, ob das Konfidenzintervall Werte umfasst, die in der jeweiligen Situation von praktischer Signifikanz sind. Wenn das Intervall zu breit und damit nicht hilfreich ist, erwägen Sie, den Stichprobenumfang zu vergrößern.
Beim z-Wert handelt es sich um eine Teststatistik für Wald-Tests, mit der das Verhältnis zwischen dem Koeffizienten und dem zugehörigen Standardfehler gemessen wird.
Minitab verwendet den z-Wert zum Berechnen des p-Werts, anhand dessen Sie eine Entscheidung über die statistische Signifikanz der Terme und des Modells treffen können. Der Wald-Test ist genau, wenn der Stichprobenumfang ausreichend groß ist, so dass die Verteilung der Stichprobenkoeffizienten einer Normalverteilung folgt.
Ein hinreichend weit von 0 entfernter z-Wert weist darauf hin, dass der Schätzwert des Koeffizienten sowohl groß als auch genau genug ist, um sich statistisch von 0 zu unterscheiden. Ein z-Wert, der nahe bei 0 liegt, weist hingegen darauf hin, dass der Schätzwert des Koeffizienten zu klein oder zu ungenau ist, um sicher sein zu können, dass der Term eine Auswirkung auf die Antwortvariable hat.
Die Tests in der Abweichungstabelle sind Likelihood-Quotienten-Tests. Die Tests in der erweiterten Anzeige der Koeffiziententabelle sind Wald-Approximationstests. Die Likelihood-Quotienten-Tests sind bei kleineren Stichproben genauer als Wald-Approximationstests.
Der p-Wert ist ein Wahrscheinlichkeitsmaß für die Anzeichen gegen die Annahme der Nullhypothese. Geringere Wahrscheinlichkeiten liefern stärkere Anzeichen dafür, dass die Nullhypothese nicht zutrifft.
Mit dem Varianzinflationsfaktor (VIF) wird die Zunahme der Varianz eines Koeffizienten aufgrund von Multikollinearität angegeben.
Verwenden Sie den VIF, um zu beschreiben, wie viel Multikollinearität in einer Regressionsanalyse vorliegt. Multikollinearität ist problematisch, da sie zu einer Zunahme der Varianz der Regressionskoeffizienten führen kann, und dies erschwert die Auswertung der individuellen Auswirkung der einzelnen Prädiktoren auf die Antwortvariable.
VIF | Multikollinearität |
---|---|
VIF = 1 | Keine |
1 < VIF < 5 | Mittelmäßig |
VIF > 5 | Hoch |
Weitere Informationen zur Multikollinearität und zum Mindern der Auswirkungen der Multikollinearität finden Sie unter Multikollinearität bei der Regression.
Wenn Sie die stetigen Variablen standardisieren, stellen die Koeffizienten eine Änderung bei den standardisierten Variablen um eine Einheit dar. In der Regel werden die stetigen Prädiktoren standardisiert, um die Multikollinearität zu reduzieren oder eine gemeinsame Skala für die Variablen festzulegen.
Die Verwendung der kodierten Koeffizienten hängt von der Standardisierungsmethode ab. Die genaue Interpretation der Koeffizienten hängt zudem von Aspekten der Analyse ab, z. B. der Linkfunktion. Positive Koeffizienten erhöhen die Wahrscheinlichkeit des Ereignisses. Negative Koeffizienten verringern die Wahrscheinlichkeit des Ereignisses. Ein geschätzter Koeffizient nahe 0 deutet darauf hin, dass der Effekt des Prädiktors klein ist.
Jeder Koeffizient stellt die erwartete Änderung des Mittelwerts der transformierten Antwortvariablen bei einer Änderung des Prädiktors um eine Einheit auf der kodierten Skala dar.
In einem Modell werden beispielsweise die Temperatur in Grad Celsius und die Zeit in Sekunden angegeben. Bei der Temperatur entspricht 0 aufgrund der Kodierung 50 Grad Celsius, und 1 entspricht 100 Grad Celsius. Bei der Zeit entspricht 0 aufgrund der Kodierung 30 Sekunden, und 1 entspricht 60 Sekunden. Der Koeffizient für die Temperatur entspricht einer Erhöhung um 50 Grad Celsius. Der Koeffizient für die Zeit entspricht einer Erhöhung um 30 Sekunden.
Jeder Koeffizient stellt die erwartete Änderung des Mittelwerts der transformierten Antwortvariablen bei einer Änderung der Prädiktorvariablen um eine Standardabweichung dar.
In einem Modell werden beispielsweise die Temperatur in Grad Celsius und die Zeit in Sekunden angegeben. Die Standardabweichung der Temperatur beträgt 3,7 Grad Celsius. Die Standardabweichung der Zeit beträgt 18,3 Sekunden. Der Koeffizient für die Temperatur entspricht einer Erhöhung um 3,7 Grad Celsius. Der Koeffizient für die Zeit entspricht einer Erhöhung um 18,3 Sekunden.
Jeder Koeffizient stellt die erwartete Änderung des Mittelwerts der transformierten Antwortvariablen bei einer Änderung des Prädiktors um 1 dar.
In einem Modell werden beispielsweise die Temperatur in Grad Celsius und die Zeit in Sekunden angegeben. Der Koeffizient für die Temperatur entspricht einer Erhöhung um 1 Grad Celsius. Der Koeffizient für die Zeit entspricht einer Erhöhung um 1 Sekunde.
Jeder Koeffizient stellt die erwartete Änderung des Mittelwerts der transformierten Antwortvariablen bei einer Änderung der Prädiktorvariablen um eine Standardabweichung dar.
In einem Modell werden beispielsweise die Temperatur in Grad Celsius und die Zeit in Sekunden angegeben. Die Standardabweichung der Temperatur beträgt 3,7 Grad Celsius. Die Standardabweichung der Zeit beträgt 18,3 Sekunden. Der Koeffizient für die Temperatur entspricht einer Erhöhung um 3,7 Grad Celsius. Der Koeffizient für die Zeit entspricht einer Erhöhung um 18,3 Sekunden.
Jeder Koeffizient stellt die erwartete Änderung des Mittelwerts der transformierten Antwortvariablen bei einer Änderung der Prädiktorvariablen um den Teiler dar.
In einem Modell werden beispielsweise die Länge in Meter und die Stromstärke in Ampere angegeben. Der Teiler beträgt 1000. Der Koeffizient für die Länge stellt eine Erhöhung um 1 Millimeter dar. Der Koeffizient für die Stromstärke stellt eine Erhöhung um 1 Milliampere dar.
Jeder Koeffizient stellt die erwartete Änderung des Mittelwerts der transformierten Antwortvariablen bei einer Änderung des Prädiktors um eine Einheit auf der kodierten Skala dar.
In einem Modell wird beispielsweise die Temperatur in Grad Celsius angegeben. Aufgrund der Kodierung entspricht 0 gleich 50 Grad Celsius, und 1 entspricht 100 Grad Celsius. Der Koeffizient für die Temperatur entspricht einer Erhöhung um 50 Grad Celsius. Der Koeffizient für die Temperatur beträgt 1,8. Wenn sich die Temperatur um eine kodierte Einheit erhöht, steigt die Temperatur um 50 Grad, und der natürliche Logarithmus der Chance erhöht sich um 1,8.
Jeder Koeffizient stellt die erwartete Änderung des natürlichen Logarithmus der Chance des Ereignisses bei einer Änderung der Prädiktorvariablen um eine Standardabweichung dar.
In einem Modell wird beispielsweise die Temperatur in Grad Celsius angegeben. Die Standardabweichung der Temperatur beträgt 3,7 Grad Celsius. Der Koeffizient für die Temperatur beträgt 1,4. Wenn sich die Temperatur um eine kodierte Einheit erhöht, steigt die Temperatur um 3,7 Grad Celsius, und der natürliche Logarithmus der Chance erhöht sich um 1,4.
Jeder Koeffizient stellt die erwartete Änderung des natürlichen Logarithmus der Chance des Ereignisses bei einer Änderung des Prädiktors um 1 dar.
In einem Modell wird beispielsweise die Temperatur in Grad Celsius angegeben. Der Koeffizient für die Temperatur entspricht einer Erhöhung um 1 Grad Celsius. Der Koeffizient für die Temperatur beträgt 2,3. Wenn sich die Temperatur um eine kodierte Einheit erhöht, steigt die Temperatur um 1 Grad Celsius, und der natürliche Logarithmus der Chance erhöht sich um 2,3.
Jeder Koeffizient stellt die erwartete Änderung des natürlichen Logarithmus der Chance des Ereignisses bei einer Änderung der Prädiktorvariablen um eine Standardabweichung dar.
In einem Modell wird beispielsweise die Temperatur in Grad Celsius angegeben. Die Standardabweichung der Temperatur beträgt 3,7 Grad Celsius. Der Koeffizient für die Temperatur beträgt 1,4. Wenn sich die Temperatur um eine kodierte Einheit erhöht, steigt die Temperatur um 3,7 Grad Celsius, und der natürliche Logarithmus der Chance erhöht sich um 1,4.
Jeder Koeffizient stellt die erwartete Änderung des natürlichen Logarithmus der Chance des Ereignisses bei einer Änderung der Prädiktorvariablen um den Teiler dar.
In einem Modell werden beispielsweise die Länge in Meter und die Stromstärke in Ampere angegeben. Der Teiler beträgt 1000. Der Koeffizient für die Länge stellt eine Erhöhung um 1 Millimeter dar. Der Koeffizient für die Länge beträgt 5,6. Wenn sich die Länge um eine kodierte Einheit erhöht, vergrößert sich die Länge um 1 Millimeter, und der natürliche Logarithmus der Chance erhöht sich um 5,6. Der Koeffizient für die Stromstärke stellt eine Erhöhung um 1 Milliampere dar.
Für die binäre logistische Regression zeigt Minitab zwei Arten von Regressionsgleichung an. Bei der ersten Gleichung wird die Wahrscheinlichkeit des Ereignisses mit der transformierten Antwortvariablen in Beziehung gesetzt. Die Form der ersten Gleichung hängt von der Linkfunktion ab.
Bei der zweiten Gleichung werden die Prädiktoren mit der transformierten Antwortvariablen in Beziehung gesetzt. Wenn das Modell sowohl stetige als auch kategoriale Prädiktoren enthält, kann die zweite Gleichung für jede Kombination von Kategorien separiert werden. Weitere Informationen zur Auswahl der anzuzeigenden Gleichungen finden Sie unter Wählen Sie die Ergebnisse aus, für Binäres logistisches Modell anpassen die angezeigt werden soll, und Binäre logistische Regression.
Verwenden Sie die Gleichungen, um die Beziehung zwischen der Antwortvariablen und den Prädiktorvariablen zu untersuchen.
Die erste Gleichung zeigt die Beziehung zwischen der Wahrscheinlichkeit und der transformierten Antwortvariablen auf der Grundlage der Logit-Linkfunktion.
Die zweite Gleichung zeigt, in welcher Beziehung das Einkommen und die Tatsache, ob ein Kunde Kinder hat, zur transformierten Antwortvariablen stehen. Wenn der Kunde keine Kinder hat, liegt der Koeffizient bei ungefähr 0,04. Wenn der Kunde Kinder hat, liegt der Koeffizient bei ungefähr 0,02. Bei diesen Gleichungen ist es umso wahrscheinlicher, dass ein Kunde das Produkt kauft, je höher sein Einkommen ist. Das Einkommen hat jedoch einen stärkeren Einfluss auf die Entscheidung, ob ein Kunde das Produkt kauft, wenn der Kunde keine Kinder hat.
p(1) | = | exp(Y')/(1 + exp(Y')) |
---|
Kinder | |||
---|---|---|---|
Nein | Y' | = | -3,549 + 0,04296 Einkommen |
Ja | Y' | = | -1,076 + 0,01565 Einkommen |
Wenn das Modell nicht hierarchisch ist und Sie die stetigen Prädiktoren standardisiert haben, liegt die Regressionsgleichung in kodierten Einheiten vor. Weitere Informationen finden Sie im Abschnitt zu kodierten Koeffizienten. Weitere Informationen zur Hierarchie finden Sie unter Was sind hierarchische Modelle?.