Überlegungen zu Daten für Bestes Modell ermitteln (binäre Antwort)

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Um die Gültigkeit Ihrer Ergebnisse sicherzustellen, befolgen Sie beim Erfassen von Daten, beim Durchführen der Analyse und beim Interpretieren der Ergebnisse die folgenden Richtlinien.

Die Antwortvariable muss binär sein
Eine binäre Antwortvariable hat zwei mögliche Ergebnisse, z. B. „Bestanden“ oder „Nicht bestanden“. Wenn Ihre Antwortvariable stetig ist, verwenden Sie Bestes Modell ermitteln (stetige Antwort).
Die Prädiktoren können stetig oder kategorial sein

Eine stetige Variable kann gemessen und geordnet werden, und sie kann zwischen zwei beliebigen Werten eine unendliche Anzahl von Werten annehmen. Die Durchmesser einer Stichprobe von Reifen sind beispielsweise eine stetige Variable.

Kategoriale Variablen umfassen eine endliche, zählbare Anzahl von Kategorien oder eindeutigen Gruppen. Kategoriale Daten müssen nicht zwangsläufig eine logische Reihenfolge aufweisen. Zu den kategorialen Prädiktoren zählen beispielsweise Geschlecht, Materialtyp und Zahlungsmethode.

Wenn Sie über eine diskrete Variable verfügen, können Sie entscheiden, ob diese als stetiger oder als kategorialer Prädiktor behandelt werden soll. Ein diskrete Variable kann gemessen und geordnet werden, kann jedoch nur eine zählbare Anzahl von Werten annehmen. Die Anzahl der zu einem Haushalt zählenden Personen ist beispielsweise eine diskrete Variable. Die Entscheidung, eine diskrete Variable als stetig oder als kategorial zu behandeln, hängt von der Anzahl der Stufen sowie vom Zweck der Analyse ab. Weitere Informationen finden Sie unter Was sind kategoriale, diskrete und stetige Variablen?.

Bei mehr als 2000 Fällen wird ein Testdatensatz empfohlen

Minitab verwendet die Kreuzvalidierung, um die Modelle zu vergleichen, wenn die Anzahl der Fälle ≤ 2000 liegt. Liegen mehr als 2000 Fälle vor, verwendet Minitab einen Testdatensatz. Wenn der Datensatz groß ist, verkürzt die Validierung mit einem Testset die Zeit für die Analyse der Daten. Weitere Informationen zu den Einstellungen für Validierungsverfahren in Bestes Modell ermitteln (binäre Antwort) finden Sie unter Angeben der Validierungsmethode für Bestes Modell ermitteln (binäre Antwort).

Das Modell sollte gut an die Daten angepasst sein.

Wenn das Modell nicht gut an die Daten angepasst ist, können die Ergebnisse irreführend sein. Alle Modelltypen enthalten Modellzusammenfassungsstatistiken, die die Leistung des Modells beschreiben. Verwenden Sie die Ergebnisse der Kreuzvalidierung oder des Testsatzes, um zu bestimmen, ob das Modell die Antwort gut vorhersagt.