Angeben der Validierungsmethode für CART® Regression

Predictive Analytics-Modul > CART® Regression > Validierung

Wählen Sie die Validierungsmethode zum Testen des Modells aus. Normalerweise ist bei kleineren Stichproben die Kreuzvalidierung mit K Faltungen geeignet. Bei größeren Stichproben können Sie einen Teil der Fälle auswählen, die für Training und Tests verwendet werden sollen.

Kreuzvalidierung mit K Faltungen

Führen Sie die folgenden Schritte aus, um die Kreuzvalidierung mit K Faltungen zum Validieren der Teststichprobe zu verwenden. Die Kreuzvalidierung mit K Faltungen ist die Standardmethode, wenn die Anzahl der Zeilen ≤ 5000 ist.

  1. Wählen Sie in der Dropdown-Liste die Option Kreuzvalidierung mit K Faltungen aus.
  2. Wählen Sie eine der folgenden Optionen aus, um anzugeben, ob die Faltungen nach dem Zufallsprinzip oder anhand einer ID-Spalte zugewiesen werden sollen:
    • Zeilen für jede Faltung zufällig zuweisen: Wählen Sie diese Option aus, wenn Minitab die Zeilen für die einzelnen Faltungen nach dem Zufallsprinzip auswählen soll. Sie können die Anzahl der Faltungen angeben. In den meisten Fällen funktioniert der Standardwert 10 gut. Die Verwendung eines niedrigeren Werts von K kann eine stärkere Verzerrung bewirken. Größere Werte von K können jedoch zu einer stärkeren Streuung führen. Sie können auch eine Basis für den Zufallszahlengenerator festlegen.
    • Zeilen für jede Faltung nach ID-Spalte zuweisen: Wählen Sie diese Option aus, um die Zeilen auszuwählen, die in die einzelnen Faltungen aufgenommen werden sollen. Geben Sie im Feld ID-Spalte die Spalte ein, die die Zeilen für jede Faltung enthält.
  3. (Optional) Aktivieren Sie ID-Spalte für Kreuzvalidierung mit K Faltungen speichern, um die ID-Spalte zu speichern.

Validierung mit einem Testdatensatz

Führen Sie die folgenden Schritte aus, um einen Teil der Daten anzugeben, der für Training und Tests verwendet werden sollen. Die Validierung mit einem Testdatensatz ist die Standardmethode, wenn die Anzahl der Zeilen ≤ 5000 ist. Häufig werden 70 % der Daten für Training und 30 % der Daten für Tests verwendet.

  1. Wählen Sie in der Dropdown-Liste die Option Validierung mit einem Testdatensatz aus.
  2. Wählen Sie eine der folgenden Optionen aus, um anzugeben, ob ein Teil der Zeilen nach dem Zufallsprinzip oder anhand einer ID-Spalte ausgewählt werden soll.
    • Zufallsfraktion der Zeilen als Testdatensatz auswählen: Wählen Sie diese Option aus, wenn Minitab für Tests einen Teil der Zeilen nach dem Zufallsprinzip auswählen soll. Sie können den Teil angeben. In den meisten Fällen funktioniert der Standardwert 0,3 gut. Bei größeren Datensätzen empfiehlt es sich möglicherweise, den Teil der Daten für die Tests zu vergrößern. Sie können auch eine Basis für den Zufallszahlengenerator festlegen.
    • Trainings-/Test-Teilung nach ID-Spalte definieren: Wählen Sie diese Option aus, um die Zeilen auszuwählen, die in die Teststichprobe aufgenommen werden sollen. Geben Sie im Feld ID-Spalte die Spalte ein, die angibt, welche Zeilen für die Teststichprobe verwendet werden sollen. Die ID-Spalte darf nur zwei Werte enthalten. Wählen Sie im Feld Stufe für Testdatensatz aus, welche Stufe als Teststichprobe verwendet werden soll.
  3. (Optional) Aktivieren Sie ID-Spalte für Trainings-/Test-Teilung speichern, um die ID-Spalte zu speichern.

Keine

Wenn Keine ausgewählt ist, wird keine zusätzliche Validierung durchgeführt.