Regressionstabelle für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet^® Regression

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

In diesem Thema

Verlustfunktion
Modellvalidierung
Trainingsrate
Fraktion für Teilstichprobe
Maximale Anzahl von Endknoten pro Baum oder Maximale Baumtiefe
Minimale Endknotengröße

Anzahl der für die Knotenteilung ausgewählten Prädiktoren
Strafe für fehlenden Wert
Strafe für Kategorie auf hoher Stufe
Gewichtungen
Verwendete Zeilen
Nicht verwendete Zeilen

Verlustfunktion

Die Verlustmethode, mit der Minitab das Modell erstellt. Minitab verwendet den quadrierten Fehler (Standardmethode), die absolute Abweichung oder die Huber-Verlustfunktion.

Mit der Verlustfunktion der absoluten Abweichung wird versucht, den Einfluss der am schlechtesten passenden Punkte zu mindern, im Vergleich zur Verlustfunktion des geringsten quadrierten Fehlers. Die Huber-Verlustfunktion kombiniert die beiden anderen Verlustfunktionen. Sie verwendet den geringsten quadrierten Fehler für Residuen mit geringeren Absolutwerten und die geringste absolute Abweichung für die Residuen mit den größten Absolutwerten.

Modellvalidierung

Minitab verwendet die Kreuzvalidierung oder einen separaten Testdatensatz, um das Modell zu validieren. Mit der Kreuzvalidierung können Sie die Zeilen für jede Faltung angeben oder eine Zufallsauswahl zulassen. Mit einem separaten Testdatensatz können Sie die Zeilen für Trainings- und Testdatensätze angeben oder eine Zufallsauswahl zulassen.

Trainingsrate

Bei niedrigen Trainingsraten wird jeder neue Baum im Modell geringer als bei einer höheren Trainingsrate gewichtet; sie erzeugen manchmal mehr Bäume für das Modell. Bei einem Modell mit einer niedrigen Trainingsrate ist es weniger wahrscheinlich, dass dieses übermäßig an den Trainingsdatensatz angepasst wird.

Die standardmäßige Trainingsrate ist gleich max[0,01; 0,1 * min(1,0; N/10000). Wenn Sie eine niedrige Trainingsrate verwenden, empfiehlt es sich möglicherweise, die maximale Anzahl von Bäumen im Modell zu erhöhen, sodass die optimale Anzahl von Bäumen kleiner als die maximale Anzahl von Bäumen ist.

Fraktion für Teilstichprobe

Die Fraktion für die Teilstichprobe zeigt die Teilmenge der Daten, die in der Analyse zum Erstellen der einzelnen Bäume verwendet wird. Passen Sie diesen Parameter an, wenn Sie Bedenken wegen einer möglichen übermäßigen Anpassung haben.

Maximale Anzahl von Endknoten pro Baum oder Maximale Baumtiefe

TreeNet^® Regression kombiniert viele kleine CART®-Bäume zu einem leistungsfähigen Modell. Sie können entweder die maximale Anzahl von Endknoten oder die maximale Baumtiefe für diese kleineren CART®-Bäume angeben.

Maximale Anzahl von Endknoten pro Baum: Die standardmäßige maximale Anzahl von Endknoten ist 6. Eine höhere maximale Anzahl von Endknoten pro Baum kann zwar die Fähigkeit verbessern, Wechselwirkungen zu erkennen, jedoch könnten Werte über 12 die Analyse verlangsamen, ohne dass dies von großem Nutzen für das Modell ist.
Maximale Baumtiefe: Die standardmäßige maximale Baumtiefe ist 4. Wenn das ursprünglich angepasste Modell nicht gut funktioniert, können Sie die maximale Baumtiefe auf 5 oder 6 erhöhen, um festzustellen, ob eine größere maximale Baumtiefe das Modell verbessert.

Minimale Endknotengröße

Gibt die Mindestanzahl von Fällen für einen Endknoten an. Wenn z. B. die Mindestgröße 3 ist und bei einer Teilung ein Knoten mit weniger als drei Fällen erstellt würde, führt Minitab keine Teilung durch.

Anzahl der für die Knotenteilung ausgewählten Prädiktoren

Diese Zeile gibt an, ob bei der Knotenteilung an jedem Knoten jeder Prädiktor oder eine zufällige Teilmenge von Prädiktoren berücksichtigt wird. Wird bei der Knotenteilung eine zufällige Teilmenge verwendet, zeigt diese Zeile die ausgewählte Anzahl von Prädiktoren an, die berücksichtigt werden sollen.

Wenn Sie anfänglich alle Prädiktoren verwenden, erwägen Sie, in nachfolgenden Modellen eine Teilmenge von Prädiktoren zu verwenden, um die Leistung der Modelle zu vergleichen.

Strafe für fehlenden Wert

Standardmäßig hat die Analyse keine Strafe für den fehlenden Wert, und diese Zeile ist nicht vorhanden. Durch die Strafe für den fehlenden Wert erhalten Prädiktorvariablen anhand des Anteils der fehlenden Werte Abzüge. Eine Variable mit einer hohen Strafe wird weniger wahrscheinlich als Teiler für einen Knoten ausgewählt.

Strafe für Kategorie auf hoher Stufe

Standardmäßig hat die Analyse keine Strafe für Kategorie auf hoher Stufe, und diese Zeile ist nicht vorhanden. Durch die Strafe für eine Kategorie auf hoher Stufe erhalten Variablen entsprechend der Anzahl der kategorialen Stufen relativ zur Größe des Knotens für jeden Knoten einen Abzug. Daher ist es weniger wahrscheinlich, dass ein Konkurrent mit vielen Stufen den primären Teiler darstellt.

Gewichtungen

Gibt die Spalte an, mit der die Antwortvariable gewichtet wird.

Verwendete Zeilen

Die Anzahl der Beobachtungen der Antwortvariablen in der Analyse zum Anpassen und Auswerten des Modells.

Nicht verwendete Zeilen

Die Anzahl der fehlenden Beobachtungen in der Antwortvariablen. Dazu gehören auch fehlende Werte oder Nullen in der Gewichtungsspalte.

Regressionstabelle für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet® Regression