Methoden und Formeln für die Modellzusammenfassung in Binäres logistisches Modell anpassenund Binäre logistische Regression

Wählen Sie die gewünschte Methode oder Formel aus.

R2 der Abweichung

Das R2 der Abweichung gibt an, wie viel der Streuung in der Antwortvariablen durch das Modell erklärt wird. Je höher das R2, desto besser ist das Modell an die Daten angepasst. Die Formel lautet wie folgt:

Notation

BegriffBeschreibung
DEError Deviance
DTTotal Deviance

Korrigiertes R2 der Abweichung

Das korrigierte R2 der Abweichung berücksichtigt die Anzahl der Prädiktoren in dem Modell und eignet sich zum Vergleichen von Modellen mit unterschiedlichen Anzahlen von Prädiktoren. Die Formel lautet:

Notation

BegriffBeschreibung
R2R2 der Abweichung
pFreiheitsgrade der Regression
Φ1, für Binomial- und Poisson-Modelle
DTGesamtabweichung

Obwohl die Berechnungen für das korrigierte R2 der Abweichung negative Werte ergeben können, wird in Minitab für derartige Fälle null angezeigt.

Akaike Information Criterion (AIC)

Verwenden Sie diese Statistik, um verschiedene Modelle zu vergleichen. Je kleiner das AIC, desto besser ist das Modell an die Daten angepasst.

Die Log-Likelihood-Funktionen sind in Bezug auf die Mittelwerte parametrisiert. Die allgemeine Form der Funktionen lautet:

Die allgemeine Form der individuellen Beiträge lautet:

Die spezifische Form der individuellen Beiträge hängt vom Modell ab.

Modell li
Binomial
Poisson

Notation

BegriffBeschreibung
pFreiheitsgrade der Regression
LcLog-Likelihood des aktuellen Modells
yiAnzahl der Ereignisse für die i-te Zeile
miAnzahl der Versuche für die i-te Zeile
geschätzter Mittelwert der Antwortvariablen für die i-te Zeile

Akaikes korrigiertes Informationskriterium (AICc)

Das AICc wird nicht berechnet, wenn .

Notation

BegriffBeschreibung
pAnzahl der Koeffizienten im Modell einschließlich der Konstante
nAnzahl der Datenzeilen ohne fehlende Daten

Bayessches Informationskriterium (BIC)

Notation

BegriffBeschreibung
pAnzahl der Koeffizienten im Modell, wobei die Konstante nicht gezählt wird
nAnzahl der Datenzeilen ohne fehlende Daten

R2 der Abweichung für Test

Das R2 der Abweichung für den Test gibt an, welcher Teil der Streuung in der Antwortvariablen des Testdatensatzes durch das Modell erklärt wird. Je höher der Wert, desto besser ist das Modell passend für Ihre Daten.

Formel

Die folgende Gleichung gibt die Formel für das R2 der Abweichung für den Test an:

Hierbei stellt die folgende Gleichung die Fehlerabweichung dar:

Die Formel für die Gesamtabweichung, DT(Test), hängt von der Form des Modells ab.
Binär logistisch
Hierbei ist für Modelle mit einem konstanten Term wie folgt definiert:
Für Modelle ohne konstanten Term ist wird die Umkehrung der Linkfunktion bei 0 verwendet. Im Folgenden finden Sie die Werte für die Linkfunktionen in Minitab:
Logit-Linkfunktion
= 0,5.
Normit-Linkfunktion
= 0,5.
Gompit-Linkfunktion
.
Poisson
Hierbei ist für Modelle mit einem konstanten Term
Für Modelle ohne konstanten Term ist .

Notation

BegriffBeschreibung
N(Test)Anzahl der Zeilen im Testdatensatz
quadrierte Abweichungsresiduen
yiAnzahl der Ereignisse für die i-te Zeile im Testdatensatz
miAnzahl der Versuche für die i-te Zeile im Testdatensatz
DE(Test)Fehlerabweichung für den Testdatensatz
DT(Test)Gesamtabweichung für den Testdatensatz

R2 der Abweichung für K Faltungen

Das R2 der Abweichung für K Faltungen gibt an, welcher Teil der Streuung in der Antwortvariablen des Validierungsdatensatzes durch das Modell erklärt wird. Je höher der Wert, desto besser ist das Modell passend für Ihre Daten.

Hierbei ist

und DT ist die Gesamtabweichung.

Notation

BegriffBeschreibung
KAnzahl der Faltungen
njStichprobenumfang der Faltung j
Kreuzvalidiertes Residuum der Abweichung für die i-te Zeile der Faltung j

Fläche unterhalb der ROC-Kurve

Formel

Die Fläche unter der Kurve ist die Summe der Flächen von Trapezen:

Hierbei ist k die Anzahl der eindeutigen Ereigniswahrscheinlichkeiten und (x0, y0) ist der Punkt (0, 0).

Um die Fläche für eine Kurve anhand eines Testdatensatzes oder von kreuzvalidierten Daten zu berechnen, verwenden Sie die Punkte aus der entsprechenden Kurve.

Angenommen, es gibt vier eindeutige Ereigniswahrscheinlichkeiten mit den folgenden Koordinaten auf der ROC-Kurve:
x (Falsch-Positiv-Rate) y (Richtig-Positiv-Rate)
0,0923 0,3051
0,4154 0,7288
0,7538 0,9322
1 1
Dann wird die Fläche unterhalb der ROC-Kurve durch die folgende Berechnung angegeben:

Notation

BegriffBeschreibung
TRPRichtig-Positiv-Rate
FPRFalsch-Positiv-Rate
TPRichtig positiv; Ereignisse, die richtig bewertet wurden
PAnzahl der tatsächlichen positiven Ereignisse
FPRichtig negativ; Nicht-Ereignisse, die richtig bewertet wurden
NAnzahl der tatsächlichen negativen Ereignisse
FNRFalsch-Negativ-Rate
TNRRichtig-Negativ-Rate