Angeben der Validierungsmethode für Bestes Modell ermitteln (binäre Antwort)

Predictive Analytics-Modul > Automatisiertes maschinelles Lernen > Bestes Modell ermitteln (binäre Antwort) > Validierung
Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Wählen Sie die Validierungsmethode aus, um den besten Modelltyp zu bestimmen. Normalerweise ist bei kleineren Stichproben die Kreuzvalidierung mit K Faltungen geeignet. Bei größeren Stichproben können Sie einen Teil der Fälle auswählen, die für Training und Tests verwendet werden sollen.

Die Auswahl, die Minitab präsentiert, hängt von der Größe des Datensatzes ab. Die Auswahl wird mit den Auswahlen im Terme Unterdialog kombiniert, um eine Analyse bereitzustellen, die Strenge und Berechnungsgeschwindigkeit in Einklang bringt:
n=1.000
Die Validierungsmethode im Validierung Unterdialog ist Kreuzvalidierung mit K Faltungen. Die Anzahl der Einheiten beträgt 5. Der Auswahlmethode für Modell der logistischen RegressionTerme im Unterdialog ist Schrittweise.
1,000 ≤ N < 1,500
Die Validierungsmethode im Validierung Unterdialog ist Kreuzvalidierung mit K Faltungen. Die Anzahl der Einheiten beträgt 3. Der Auswahlmethode für Modell der logistischen RegressionTerme im Unterdialog ist Schrittweise.
1.500, ..., ni
Die Validierungsmethode im Validierung Unterdialog ist Validierung mit einem Testdatensatz. Der Anteil der Daten im Testset beträgt 0,3. Der Auswahlmethode für Modell der logistischen Regression auf dem Terme Unterdialog ist , der den Vorwärtsauswahl mit ValidierungTestsatz verwendet.

Kreuzvalidierung mit K Faltungen

Führen Sie die folgenden Schritte aus, um die Kreuzvalidierung mit K Faltungen zum Validieren der Teststichprobe zu verwenden.

  1. Wählen Sie in der Dropdown-Liste die Option Kreuzvalidierung mit K Faltungen aus.
  2. Angeben der Anzahl von Lags In den meisten Fällen funktioniert der Standardwert 10 gut. Eine größere Anzahl von Faltungen erhöht in beiden Fällen die Wahrscheinlichkeit, ein zuverlässigeres Prognosemodell auszuwählen. Dies gilt insbesondere bei Datensätzen mit weniger Zeilen, kann jedoch die Berechnungszeit erheblich erhöhen. Eine größere Zahl kann die Rechenzeit deutlich erhöhen.
  3. (Optional) Wählen Sie ID-Spalte für Kreuzvalidierung mit K Faltungen speichern aus, um die ID-Spalte zu speichern.

Validierung mit einem Testdatensatz

Führen Sie die folgenden Schritte aus, um einen Teil der Daten anzugeben, der für Training und Tests verwendet werden sollen. Häufig werden 70 % der Daten für Training und 30 % der Daten für Tests verwendet.

  1. Wählen Sie in der Dropdown-Liste die Option Validierung mit einem Testdatensatz aus.
  2. Geben Sie den Anteil der Daten für den Testset an. In den meisten Fällen funktioniert der Standardwert 0,3 gut. Bei größeren Datensätzen empfiehlt es sich möglicherweise, den Teil der Daten für die Tests zu vergrößern. Sie können auch eine Basis für den Zufallszahlengenerator festlegen. Wenn Sie in verschiedenen Ausführungen der Analyse dieselbe Basis eingeben, ist die Zuordnung der Zeilen zum Testset gleich.
  3. (Optional) Wählen Sie ID-Spalte für Trainings-/Test-Teilung speichern aus, um die ID-Spalte zu speichern.