Methoden und Formeln für die Modellzusammenfassung in Binäres logistisches Modell anpassenund Binäre logistische Regression

Wählen Sie die gewünschte Methode oder Formel aus.

In diesem Thema

R² der Abweichung
Korrigiertes R² der Abweichung
Akaike Information Criterion (AIC)
Akaikes korrigiertes Informationskriterium (AICc)
Bayessches Informationskriterium (BIC)
R² der Abweichung für Test
R² der Abweichung für K Faltungen
Fläche unterhalb der ROC-Kurve

R² der Abweichung

Das R² der Abweichung gibt an, wie viel der Streuung in der Antwortvariablen durch das Modell erklärt wird. Je höher das R², desto besser ist das Modell an die Daten angepasst. Die Formel lautet wie folgt:

Notation

Begriff	Beschreibung
D_E	Error Deviance
D_T	Total Deviance

Korrigiertes R² der Abweichung

Das korrigierte R² der Abweichung berücksichtigt die Anzahl der Prädiktoren in dem Modell und eignet sich zum Vergleichen von Modellen mit unterschiedlichen Anzahlen von Prädiktoren. Die Formel lautet:

Notation

Begriff	Beschreibung
R²	R² der Abweichung
p	Freiheitsgrade der Regression
Φ	1, für Binomial- und Poisson-Modelle
D_T	Gesamtabweichung

Obwohl die Berechnungen für das korrigierte R² der Abweichung negative Werte ergeben können, wird in Minitab für derartige Fälle null angezeigt.

Akaike Information Criterion (AIC)

Verwenden Sie diese Statistik, um verschiedene Modelle zu vergleichen. Je kleiner das AIC, desto besser ist das Modell an die Daten angepasst.

Die Log-Likelihood-Funktionen sind in Bezug auf die Mittelwerte parametrisiert. Die allgemeine Form der Funktionen lautet:

Die allgemeine Form der individuellen Beiträge lautet:

Die spezifische Form der individuellen Beiträge hängt vom Modell ab.

Modell	l_i
Binomial
Poisson

Notation

Begriff	Beschreibung
p	Freiheitsgrade der Regression
L_c	Log-Likelihood des aktuellen Modells
y_i	Anzahl der Ereignisse für die i-te Zeile
m_i	Anzahl der Versuche für die i-te Zeile
	geschätzter Mittelwert der Antwortvariablen für die i-te Zeile

Akaikes korrigiertes Informationskriterium (AICc)

Das AICc wird nicht berechnet, wenn .

Notation

Begriff	Beschreibung
p	Anzahl der Koeffizienten im Modell einschließlich der Konstante
n	Anzahl der Datenzeilen ohne fehlende Daten

Bayessches Informationskriterium (BIC)

Notation

Begriff	Beschreibung
p	Anzahl der Koeffizienten im Modell, wobei die Konstante nicht gezählt wird
n	Anzahl der Datenzeilen ohne fehlende Daten

R² der Abweichung für Test

Das R² der Abweichung für den Test gibt an, welcher Teil der Streuung in der Antwortvariablen des Testdatensatzes durch das Modell erklärt wird. Je höher der Wert, desto besser ist das Modell passend für Ihre Daten.

Formel

Die folgende Gleichung gibt die Formel für das R² der Abweichung für den Test an:

Hierbei stellt die folgende Gleichung die Fehlerabweichung dar:

Die Formel für die Gesamtabweichung, D_T(Test), hängt von der Form des Modells ab.

Binär logistisch

Hierbei ist für Modelle mit einem konstanten Term

wie folgt definiert:

Für Modelle ohne konstanten Term ist wird die Umkehrung der Linkfunktion bei 0 verwendet. Im Folgenden finden Sie die Werte für die Linkfunktionen in Minitab:

Logit-Linkfunktion: = 0,5.
Normit-Linkfunktion: = 0,5.
Gompit-Linkfunktion: .

Poisson

Hierbei ist für Modelle mit einem konstanten Term

Für Modelle ohne konstanten Term ist

Notation

Begriff	Beschreibung
N(Test)	Anzahl der Zeilen im Testdatensatz
	quadrierte Abweichungsresiduen
y_i	Anzahl der Ereignisse für die i-te Zeile im Testdatensatz
m_i	Anzahl der Versuche für die i-te Zeile im Testdatensatz
D_E(Test)	Fehlerabweichung für den Testdatensatz
D_T(Test)	Gesamtabweichung für den Testdatensatz

R² der Abweichung für K Faltungen

Das R² der Abweichung für K Faltungen gibt an, welcher Teil der Streuung in der Antwortvariablen des Validierungsdatensatzes durch das Modell erklärt wird. Je höher der Wert, desto besser ist das Modell passend für Ihre Daten.

Hierbei ist

und D_T ist die Gesamtabweichung.

Notation

Begriff	Beschreibung
K	Anzahl der Faltungen
n_j	Stichprobenumfang der Faltung j
	Kreuzvalidiertes Residuum der Abweichung für die i-te Zeile der Faltung j

Fläche unterhalb der ROC-Kurve

Formel

Die Fläche unter der Kurve ist die Summe der Flächen von Trapezen:

Hierbei ist k die Anzahl der eindeutigen Ereigniswahrscheinlichkeiten und (x₀, y₀) ist der Punkt (0, 0).

Um die Fläche für eine Kurve anhand eines Testdatensatzes oder von kreuzvalidierten Daten zu berechnen, verwenden Sie die Punkte aus der entsprechenden Kurve.

Angenommen, es gibt vier eindeutige Ereigniswahrscheinlichkeiten mit den folgenden Koordinaten auf der ROC-Kurve:

x (Falsch-Positiv-Rate)	y (Richtig-Positiv-Rate)
0,0923	0,3051
0,4154	0,7288
0,7538	0,9322
1	1

Dann wird die Fläche unterhalb der ROC-Kurve durch die folgende Berechnung angegeben:

Notation

Begriff	Beschreibung
TRP	Richtig-Positiv-Rate
FPR	Falsch-Positiv-Rate
TP	Richtig positiv; Ereignisse, die richtig bewertet wurden
P	Anzahl der tatsächlichen positiven Ereignisse
FP	Richtig negativ; Nicht-Ereignisse, die richtig bewertet wurden
N	Anzahl der tatsächlichen negativen Ereignisse
FNR	Falsch-Negativ-Rate
TNR	Richtig-Negativ-Rate

Methoden und Formeln für die Modellzusammenfassung in Binäres logistisches Modell anpassenund Binäre logistische Regression

In diesem Thema

R2 der Abweichung

Notation

Korrigiertes R2 der Abweichung

Notation

Akaike Information Criterion (AIC)

Notation

Akaikes korrigiertes Informationskriterium (AICc)

Notation

Bayessches Informationskriterium (BIC)

Notation

R2 der Abweichung für Test

Formel

Notation

R2 der Abweichung für K Faltungen

Notation

Fläche unterhalb der ROC-Kurve

Formel

Notation

R² der Abweichung

Korrigiertes R² der Abweichung

R² der Abweichung für Test

R² der Abweichung für K Faltungen