Datenüberlegungen für Binäres logistisches Modell anpassen

Binäres logistisches Modell anpassen und Binäre logistische Regression führen Sie dieselbe Analyse über verschiedene Menüs durch. Befolgen Sie beim Erfassen von Daten, Durchführen der Analyse und Interpretieren der Ergebnisse die folgenden Richtlinien, um sicherzustellen, dass die Ergebnisse gültig sind.

Die Prädiktoren können stetig oder kategorial sein

Eine stetige Variable kann gemessen und geordnet werden, und sie kann zwischen zwei beliebigen Werten eine unendliche Anzahl von Werten annehmen. Die Durchmesser einer Stichprobe von Reifen sind beispielsweise eine stetige Variable.

Kategoriale Variablen umfassen eine endliche, zählbare Anzahl von Kategorien oder eindeutigen Gruppen. Kategoriale Daten müssen nicht zwangsläufig eine logische Reihenfolge aufweisen. Zu den kategorialen Prädiktoren zählen beispielsweise Geschlecht, Materialtyp und Zahlungsmethode.

Wenn Sie über eine diskrete Variable verfügen, können Sie entscheiden, ob diese als stetiger oder als kategorialer Prädiktor behandelt werden soll. Ein diskrete Variable kann gemessen und geordnet werden, kann jedoch nur eine zählbare Anzahl von Werten annehmen. Die Anzahl der zu einem Haushalt zählenden Personen ist beispielsweise eine diskrete Variable. Die Entscheidung, eine diskrete Variable als stetig oder als kategorial zu behandeln, hängt von der Anzahl der Stufen sowie vom Zweck der Analyse ab. Weitere Informationen finden Sie unter Was sind kategoriale, diskrete und stetige Variablen?.

Wenn Sie über kategoriale Prädiktoren verfügen, die geschachtelt oder zufällig sind, verwenden Sie Allgemeines lineares Modell anpassen (wenn nur feste Faktoren vorliegen) oder Modell mit gemischten Effekten anpassen (wenn Zufallsfaktoren vorliegen). Die Antwortvariable für Allgemeines lineares Modell anpassen ist stetig.

Die Antwortvariable muss binär sein
Eine binäre Antwortvariable hat zwei mögliche Ergebnisse, z. B. „Bestanden“ oder „Nicht bestanden“.
  • Wenn die Antwortvariable drei oder mehr Kategorien mit einer natürlichen Rangfolge aufweist, z. B. „Starke Ablehnung“, „Ablehnung“, „Neutral“, „Zustimmung“ und „Starke Zustimmung“, verwenden Sie Ordinale Logistische Regression
  • Wenn die Antwortvariable drei oder mehr Kategorien ohne natürliche Rangfolge aufweist, z. B. Kratzer, Delle und Riss, verwenden Sie Nominale Logistische Regression.
  • Wenn mit der Antwortvariablen Ereignishäufigkeiten gezählt werden, z. B. die Anzahl der Fehler, verwenden Sie Poisson-Modell anpassen.
Erwägen Sie die Verwendung einer Modellvalidierungsmethode
In Minitab können Sie das Modell mit einem Testdatensatz oder mit der Kreuzvalidierung validieren. Die Statistiken zur Zusammenfassung des Modells, z. B. das R2 der Abweichung, für die Daten aus dem Modellanpassungsprozess sind tendenziell optimistisch. Die Verwendung eines Testdatensatzes oder der Kreuzvalidierung kann eine genauere Darstellung der Leistung des Modells für neue Daten ergeben.
Orientieren Sie sich bei der Datenerfassung an optimalen Vorgehensweisen
Befolgen Sie die folgenden Richtlinien, um sicherzustellen, dass Sie gültige Ergebnisse erhalten:
  • Vergewissern Sie sich, dass die Daten repräsentativ für die Grundgesamtheit von Interesse sind.
  • Erfassen Sie eine ausreichende Datenmenge, um die notwendige Präzision zu erzielen.
  • Messen Sie Variablen so genau und präzise wie möglich.
  • Zeichnen Sie die Daten in der Reihenfolge auf, in der sie erfasst werden.
Die Korrelation zwischen den Prädiktoren, die auch als Multikollinearität bezeichnet wird, darf nicht zu stark ausgeprägt sein.

Bei stark ausgeprägter Multikollinearität können Sie u. U. nicht ermitteln, welche Prädiktoren in das Modell eingebunden werden sollten. Bestimmen Sie den Schweregrad der Multikollinearität anhand der Varianzinflationsfaktoren (VIF) in der Koeffiziententabelle der Ausgabe.

Das Modell sollte gut an die Daten angepasst sein.

Wenn das Modell nicht gut an die Daten angepasst ist, können die Ergebnisse irreführend sein. Bestimmen Sie anhand der Residuendiagramme, der Bewertungsstatistiken für ungewöhnliche Beobachtungen und der zusammenfassenden Statistiken zum Modell in der Ausgabe, wie gut das Modell an die Daten angepasst ist.