Angeben der Validierungsmethode für Random Forests®-Klassifikation

Predictive Analytics-Modul > Random Forests®-Klassifikation > Validierung
Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Wählen Sie aus, ob Sie zusätzlich zur Validierung außerhalb des Segments mit einem Testdatensatz validieren.

Validierung mit Daten von außerhalb des Segments

Random Forests®-Klassifikation verwendet Bootstrap-Sampling für jeden Baum. Jeder Eintrag in einer Bootstrap-Stichprobe wird zufällig mit Zurücklegen aus dem ursprünglichen Datensatz ausgewählt. Von allen Beobachtungen des ursprünglichen Datensatzes werden einige Einträge aus jeder Bootstrap-Stichprobe ausgelassen. Die aus einer Bootstrap-Stichprobe ausgelassenen Zeilen bilden einen Datensatz außerhalb des Segments.

Validierung mit einem Testdatensatz zusätzlich zu den Daten außerhalb des Segments

Führen Sie die folgenden Schritte aus, um einen Teil der Daten anzugeben, der für Training und Tests verwendet werden sollen. Wenn Sie Validierung mit einem Testdatensatz zusätzlich zu den Daten außerhalb des Segments auswählen, verwendet Minitab standardmäßig 30 % der Daten für die Tests.

  1. Wählen Sie in der Dropdown-Liste die Option Validierung mit einem Testdatensatz zusätzlich zu den Daten außerhalb des Segments aus.
  2. Wählen Sie eine der folgenden Optionen aus, um anzugeben, ob ein Teil der Zeilen nach dem Zufallsprinzip oder anhand einer ID-Spalte ausgewählt werden soll.
    • Zufallsfraktion der Zeilen als Testdatensatz auswählen: Wählen Sie diese Option aus, wenn Minitab für Tests einen Teil der Zeilen nach dem Zufallsprinzip auswählen soll. Sie können den Teil angeben. In den meisten Fällen funktioniert der Standardwert 0,3 gut. Bei größeren Datensätzen empfiehlt es sich möglicherweise, den Teil der Daten für die Tests zu vergrößern. Sie können auch eine Basis für den Zufallszahlengenerator festlegen.
    • Trainings-/Test-Teilung nach ID-Spalte definieren: Wählen Sie diese Option aus, um die Zeilen auszuwählen, die in die Teststichprobe aufgenommen werden sollen. Geben Sie im Feld ID-Spalte die Spalte ein, die angibt, welche Zeilen für die Teststichprobe verwendet werden sollen. Die ID-Spalte darf nur zwei Werte enthalten. Wählen Sie im Feld Stufe für Testdatensatz aus, welche Stufe als Teststichprobe verwendet werden soll.
  3. (Optional) Aktivieren Sie ID-Spalte für Trainings-/Test-Teilung speichern, um die ID-Spalte zu speichern.