Die Art und Weise, wie Sie mit dem Modell vorhersagen, hängt davon ab, wie Sie das Modell erstellt haben.
  • Wenn Sie das Modell mit Binäres logistisches Modell anpassen erzeugen, wählen Sie Statistik > Regression > Binäre logistische Regression > Prognostizieren.
  • Wenn Sie das Modell mit Bestes Modell ermitteln (binäre Antwort) erstellen, klicken Sie Prognostizieren in die Ergebnisse.

Die beiden Methoden führen zu geringfügigen Unterschieden in den Ergebnissen. Wenn Sie beispielsweise die Ergebnisse mit einer der beiden Methoden speichern, befinden sich die Vorhersagestatistiken im Arbeitsblatt, aber die Version mit Bestes Modell ermitteln (binäre Antwort) zeigt auch die Regressionsgleichung im Ausgabebereich an. Die Version mit Binäres logistisches Modell anpassen kann den Standardfehler der Anpassung und das Konfidenzintervall für die Anpassung enthalten. Bei beiden Methoden umfassen die Ergebnisse im Ausgabebereich die Regressionsgleichung, die Einstellungen für die Prädiktoren und die Vorhersagetabelle.

Regressionsgleichung

Für die binäre logistische Regression zeigt Minitab zwei Arten von Regressionsgleichung an. Bei der ersten Gleichung wird die Wahrscheinlichkeit des Ereignisses mit der transformierten Antwortvariablen in Beziehung gesetzt. Die Form der ersten Gleichung hängt von der Linkfunktion ab.

Die zweite Gleichung stellt die Prädiktoren in Beziehung mit der transformierten Antwortvariablen. Wenn das Modell sowohl stetige als auch kategoriale Prädiktoren enthält, kann die zweite Gleichung für jede Kombination von Kategorien getrennt werden.

Interpretation

Verwenden Sie die Gleichungen, um die Beziehung zwischen der Antwortvariablen und den Prädiktorvariablen zu untersuchen.

Ein Modell, mit dem prognostiziert werden soll, ob ein Kunde ein Produkt kauft, enthält z. B. die folgenden Terme:
  • Einkommen des Kunden
  • Angabe, ob ein Kunde Kinder hat
  • Wechselwirkung zwischen den zwei Prädiktoren

Die erste Gleichung zeigt die Beziehung zwischen der Wahrscheinlichkeit und der transformierten Antwortvariablen auf der Grundlage der Logit-Linkfunktion.

Die zweite Gleichung zeigt, in welcher Beziehung das Einkommen und die Tatsache, ob ein Kunde Kinder hat, zur transformierten Antwortvariablen stehen. Wenn der Kunde keine Kinder hat, liegt der Koeffizient bei ungefähr 0,04. Wenn der Kunde Kinder hat, liegt der Koeffizient bei ungefähr 0,02. Bei diesen Gleichungen ist es umso wahrscheinlicher, dass ein Kunde das Produkt kauft, je höher sein Einkommen ist. Das Einkommen hat jedoch einen stärkeren Einfluss auf die Entscheidung, ob ein Kunde das Produkt kauft, wenn der Kunde keine Kinder hat.

Regressionsgleichung in nicht kodierten Einheiten

p(1)=exp(Y')/(1 + exp(Y'))
Kinder
NeinY'=-3,549 + 0,04296 Einkommen
       
JaY'=-1,076 + 0,01565 Einkommen

Wenn das Modell nicht hierarchisch ist und Sie die stetigen Prädiktoren standardisiert haben, liegt die Regressionsgleichung in kodierten Einheiten vor. Weitere Informationen finden Sie im Abschnitt „Kodierte Koeffizienten“. Weitere Informationen zur Hierarchie finden Sie unter Was sind hierarchische Modelle?.

Variableneinstellungen

Minitab verwendet die Regressionsgleichung und die Variableneinstellungen, um die Anpassung zu berechnen. Wenn Sie das Modell mit Binäres logistisches Modell anpassen erstellen und die Variableneinstellungen im Vergleich zu den Daten, die zur Schätzung des Modells verwendet wurden, ungewöhnlich sind, wird unter der Vorhersage eine Warnung angezeigt.

Verwenden Sie die Tabelle „Variableneinstellungen“, um sich zu vergewissern, dass die Analyse wie gewünscht durchgeführt wurde.

Angepasste Wahrscheinlichkeit oder Klassenwahrscheinlichkeiten

Wenn Sie das Modell mit Bestes Modell ermitteln (binäre Antwort) erstellen, zeigt die Vorhersagetabelle eine Beobachtungszahl, die vorhergesagte Klasse und die Wahrscheinlichkeit für die Mitgliedschaft in jeder Klasse an. Wenn Sie das Modell mit Binäres logistisches Modell anpassen erstellen, enthält die Vorhersagetabelle die angepasste Wahrscheinlichkeit.

Die Ereigniswahrscheinlichkeit ist die Chance, dass ein bestimmtes Ergebnis oder Ereignis eintritt. Die Ereigniswahrscheinlichkeit ist ein Schätzwert, der angibt, mit welcher Wahrscheinlichkeit ein Ereignis im Versuch eintritt, z. B. ein Ass aus einem Kartenspiel zu ziehen oder ein unzulängliches Teil herzustellen. Die Wahrscheinlichkeit eines Ereignisses liegt zwischen 0 (unmöglich) und 1 (sicher).

Interpretation

Bei der binären logistischen Regression hat eine binäre Antwortvariable nur zwei mögliche Ergebnisse, beispielsweise Erkrankung oder Nichterkrankung. Die Ereigniswahrscheinlichkeit ist die Wahrscheinlichkeit, mit der der Wert der Antwortvariablen für einen bestimmten Faktor oder ein bestimmtes Kovariatenmuster 1 oder ein Ereignis ist (z. B. die Wahrscheinlichkeit, mit der bei einer Frau über 50 Jahre Diabetes vom Typ 2 ausbricht).

Jeder Durchlauf in einem Experiment wird als Versuch bezeichnet. Wenn Sie beispielsweise eine Münze zehnmal werfen und die Anzahl der Würfe mit „Kopf“ festhalten, führen Sie zehn Versuche des Experiments durch. Wenn die Versuche unabhängig und gleich wahrscheinlich sind, können Sie die Ereigniswahrscheinlichkeit schätzen, indem Sie Anzahl der Ereignisse durch die Gesamtzahl der Versuche dividieren. Wenn Sie beispielsweise bei zehn Münzwürfen sechsmal „Kopf“ werfen, errechnet sich die geschätzte Wahrscheinlichkeit des Ereignisses („Kopf“) wie folgt:

Anzahl der Ereignisse: Anzahl der Versuche 6 10 0,6

SE Anpassung

Die SE-Anpassung befindet sich in der Vorhersagetabelle, wenn Sie das Modell mit Binäres logistisches Modell anpassen erstellen. Der Standardfehler der Anpassung (SE Anpassung) ist ein Schätzwert der Streuung im geschätzten Mittelwert der Antwortvariablen für die angegebenen Variableneinstellungen. Der Standardfehler der Anpassung wird bei der Berechnung des Konfidenzintervalls für den Mittelwert der Antwortvariablen verwendet. Standardfehler sind immer nicht negativ.

Interpretation

Verwenden Sie den Standardfehler der Anpassung, um zu ermitteln, wie genau der Schätzwert für den Mittelwert der Antwortvariablen ist. Je kleiner der Standardfehler, desto genauer ist der prognostizierte Mittelwert der Antwortvariablen. Ein Analytiker entwickelt beispielsweise ein Modell, um die Lieferzeit zu prognostizieren. Für einen Satz von Variableneinstellungen prognostiziert das Modell eine mittlere Lieferzeit von 3,80 Tagen. Der Standardfehler der Anpassung für diese Einstellungen beträgt 0,08 Tage. Für einen zweiten Satz von Variableneinstellungen errechnet das Modell dieselbe mittlere Lieferzeit mit einem Standardfehler der Anpassung von 0,02 Tagen. Der Analytiker kann sich sicherer sein, dass die mittlere Lieferzeit für den zweiten Satz von Variableneinstellungen nahe an 3,80 Tagen liegt.

Der Standardfehler der Anpassung kann in Verbindung mit dem angepassten Wert verwendet werden, um ein Konfidenzintervall für den Mittelwert der Antwortvariablen zu erstellen. Angenommen, ein 95%-Konfidenzintervall erstreckt sich (je nach Freiheitsgraden) ungefähr +/- zwei Standardfehler um den prognostizierten Mittelwert. Für die Lieferzeiten beträgt das 95%-Konfidenzintervall des prognostizierten Mittelwerts von 3,80 Tagen bei einem Standardfehler von 0,08 (3,64; 3,96) Tage. Sie können sich zu 95 % sicher sein, dass der Mittelwert der Grundgesamtheit in diesem Bereich liegt. Wenn der Standardfehler 0,02 beträgt, ist das 95%-Konfidenzintervall (3,76; 3,84) Tage. Das Konfidenzintervall für den zweiten Satz von Variableneinstellungen ist schmaler, weil der Standardfehler kleiner ist.

Konfidenzintervall für Anpassung (95%-KI)

Das Konfidenzintervall für die Anpassung befindet sich in der Vorhersagetabelle, wenn Sie das Modell mit Binäres logistisches Modell anpassen erstellen. Diese Konfidenzintervalle (KI) sind Bereiche von Werten, die wahrscheinlich die Ereigniswahrscheinlichkeit für die Grundgesamtheit enthalten, die die beobachteten Werte der im Modell enthalten Prädiktorvariablen aufweist.

Da die Stichproben zufällig sind, ist es unwahrscheinlich, dass zwei Stichproben aus einer Grundgesamtheit identische Konfidenzintervalle ergeben. Wenn Sie die Stichprobennahme jedoch viele Male wiederholen, enthält ein gewisser Prozentsatz der resultierenden Konfidenzintervalle den unbekannten Parameter der Grundgesamtheit. Der Prozentsatz dieser Konfidenzintervalle, die den Parameter enthalten, stellt das Konfidenzniveau des Intervalls dar.

Das Konfidenzintervall setzt sich aus den folgenden zwei Teilen zusammen:
Punktschätzung
Die Punktschätzung ist der Schätzwert des Parameters, der auf der Grundlage der Stichprobendaten berechnet wird.
Fehlerspanne
Die Fehlerspanne definiert die Breite des Konfidenzintervalls, und sie wird durch die Spannweite der Ereigniswahrscheinlichkeiten, den Stichprobenumfang und das Konfidenzniveau bestimmt.

Interpretation

Verwenden Sie das Konfidenzintervall, um den Schätzwert des angepassten Werts für die beobachteten Werte der Variablen auszuwerten.

Bei einem 95%-Konfidenzniveau können Sie sich beispielsweise zu 95 % sicher sein, dass das Konfidenzintervall die Ereigniswahrscheinlichkeit für die angegebenen Werte der Variablen im Modell enthält. Anhand des Konfidenzintervalls können Sie die praktische Signifikanz Ihrer Ergebnisse beurteilen. Bestimmen Sie anhand Ihrer Fachkenntnisse, ob das Konfidenzintervall Werte umfasst, die in der jeweiligen Situation von praktischer Signifikanz sind. Wenn das Intervall zu breit und damit nicht hilfreich ist, erwägen Sie, den Stichprobenumfang zu vergrößern.