Kriterium für Auswahl der optimalen Anzahl von Bäumen

Minitab verwendet die maximale Log-Likelihood (Standard), die maximale Fläche unter der ROC-Kurve oder die minimale Fehlklassifikationsquote, um die optimale Anzahl von Bäumen auszuwählen.

Modellvalidierung

Minitab verwendet die Kreuzvalidierung oder einen separaten Testdatensatz, um das Modell zu validieren. Mit der Kreuzvalidierung können Sie die Zeilen für jede Faltung angeben oder eine Zufallsauswahl zulassen. Mit einem separaten Testdatensatz können Sie die Zeilen für Trainings- und Testdatensätze angeben oder eine Zufallsauswahl zulassen.

Trainingsrate

Bei niedrigen Trainingsraten wird jeder neue Baum im Modell geringer als bei einer höheren Trainingsrate gewichtet; sie erzeugen manchmal mehr Bäume für das Modell. Bei einem Modell mit einer niedrigen Trainingsrate ist es weniger wahrscheinlich, dass dieses übermäßig an den Trainingsdatensatz angepasst wird.

Die standardmäßige Trainingsrate ist gleich max[0,01; 0,1 * min(1,0; N/10000). Wenn Sie eine niedrige Trainingsrate verwenden, empfiehlt es sich möglicherweise, die maximale Anzahl von Bäumen im Modell zu erhöhen, sodass die optimale Anzahl von Bäumen kleiner als die maximale Anzahl von Bäumen ist.

Auswahlmethode für Teilstichprobe

Die Auswahlmethode für die Teilstichprobe gibt die Teilmenge der Daten an, die bei der Analyse zum Erstellen der einzelnen Bäume verwendet wird. Passen Sie diesen Parameter an, wenn Sie Bedenken wegen einer möglichen übermäßigen Anpassung haben. Wenn bei der Analyse einer binären Antwortvariablen eine separate Teilmenge für jede Klasse angegeben wird, zeigt die Methode beide Werte an. Die Option zum Angeben einer Teilmenge für jede Stufe der Antwortvariablen stellt sicher, dass die Bäume eine Mindestanzahl jedes Wertes der Antwortvariablen enthalten, wenn einer der Werte selten ist.

Maximale Anzahl von Endknoten pro Baum oder Maximale Baumtiefe

TreeNet®-Klassifikation kombiniert viele kleine CART®-Bäume zu einem leistungsfähigen Modell. Sie können entweder die maximale Anzahl von Endknoten oder die maximale Baumtiefe für diese kleineren CART®-Bäume angeben.
Maximale Anzahl von Endknoten pro Baum
Die standardmäßige maximale Anzahl von Endknoten ist 6. Eine höhere maximale Anzahl von Endknoten pro Baum kann zwar die Fähigkeit verbessern, Wechselwirkungen zu erkennen, jedoch könnten Werte über 12 die Analyse verlangsamen, ohne dass dies von großem Nutzen für das Modell ist.
Maximale Baumtiefe
Die standardmäßige maximale Baumtiefe ist 4. Wenn das ursprünglich angepasste Modell nicht gut funktioniert, können Sie die maximale Baumtiefe auf 5 oder 6 erhöhen, um festzustellen, ob eine größere maximale Baumtiefe das Modell verbessert.

Minimale Endknotengröße

Gibt die Mindestanzahl von Fällen für einen Endknoten an. Wenn z. B. die Mindestgröße 3 ist und bei einer Teilung ein Knoten mit weniger als drei Fällen erstellt würde, führt Minitab keine Teilung durch.

Anzahl der für die Knotenteilung ausgewählten Prädiktoren

Diese Zeile gibt an, ob bei der Knotenteilung an jedem Knoten jeder Prädiktor oder eine zufällige Teilmenge von Prädiktoren berücksichtigt wird. Wird bei der Knotenteilung eine zufällige Teilmenge verwendet, zeigt diese Zeile die ausgewählte Anzahl von Prädiktoren an, die berücksichtigt werden sollen.

Wenn Sie anfänglich alle Prädiktoren verwenden, erwägen Sie, in nachfolgenden Modellen eine Teilmenge von Prädiktoren zu verwenden, um die Leistung der Modelle zu vergleichen.

Strafe für fehlenden Wert

Standardmäßig hat die Analyse keine Strafe für den fehlenden Wert, und diese Zeile ist nicht vorhanden. Durch die Strafe für den fehlenden Wert erhalten Prädiktorvariablen anhand des Anteils der fehlenden Werte Abzüge. Eine Variable mit einer hohen Strafe wird weniger wahrscheinlich als Teiler für einen Knoten ausgewählt.

Strafe für Kategorie auf hoher Stufe

Standardmäßig hat die Analyse keine Strafe für Kategorie auf hoher Stufe, und diese Zeile ist nicht vorhanden. Durch die Strafe für eine Kategorie auf hoher Stufe erhalten Variablen entsprechend der Anzahl der kategorialen Stufen relativ zur Größe des Knotens für jeden Knoten einen Abzug. Daher ist es weniger wahrscheinlich, dass ein Konkurrent mit vielen Stufen den primären Teiler darstellt.

Gewichtungen

Gibt die Spalte an, mit der die Antwortvariable gewichtet wird.

Verwendete Zeilen

Die Anzahl der Beobachtungen der Antwortvariablen in der Analyse zum Anpassen und Auswerten des Modells.

Nicht verwendete Zeilen

Die Anzahl der fehlenden Beobachtungen in der Antwortvariablen. Dazu gehören auch fehlende Werte oder Nullen in der Gewichtungsspalte.