Optimierung der Hyperparameter für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet® Regression

Hinweis

Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Verwenden Sie die Ergebnisse, um zu vergleichen, wie gut die Modelle mit unterschiedlichen Einstellungen für die Hyperparameter funktionieren. Klicken Sie auf Anpassen von Hyperparametern zum Identifizieren eines besseren Modells, um zusätzliche Werte der Hyperparameter auszuwerten.

Optimale Anzahl von Bäumen

Die optimale Anzahl von Bäumen unterscheidet sich in der Regel bei jedem Schritt. Wenn die optimale Anzahl nahe an der maximalen Anzahl von Bäumen für die Analyse liegt, wird sich das Modell eher verbessern, wenn Sie die Anzahl der Bäume erhöhen, als ein Modell mit einer optimalen Anzahl von Bäumen, die weit vom Maximum entfernt ist. Sie können überlegen, ob Sie ein alternatives Modell, das sich wahrscheinlich verbessern wird, weiter erforschen.

R-Quadrat (%)

R2 ist der Prozentsatz der Streuung in der Antwortvariablen, den das Modell erklärt. Ausreißer haben eine größere Auswirkung auf das R2 als auf die MAD.

Wenn Sie die „Quadrierter Fehler“-Verlustfunktion oder die Huber-Verlustfunktion verwenden, enthält die Tabelle den R2-Wert für jedes Modell. Die folgenden Ergebnisse beziehen sich auf das Modell mit dem höchsten R2-Wert.

MAD

Die mittlere absolute Abweichung (MAD) ist der Mittelwert des absoluten Wertes der Differenz zwischen einem prognostizierten Wert und einem tatsächlichen Wert. Je kleiner das MAD, desto besser ist das Modell an die Daten angepasst. Die MAD drückt die Genauigkeit in der gleichen Einheit wie die Daten aus, wodurch der Fehlerbetrag leichter erfasst werden kann. Ausreißer haben eine geringere Auswirkung auf die MAD als auf R2.

Wenn Sie die Verlustfunktion „Absolute Abweichung“ verwenden, enthält die Tabelle den MAD-Wert für jedes Modell. Die vollständigen Ergebnisse, die auf die Tabelle folgen, beziehen sich auf das Modell mit dem geringsten MAD-Wert.

Trainingsrate

Bei niedrigen Trainingsraten wird jeder neue Baum im Modell geringer als bei einer höheren Trainingsrate gewichtet; sie erzeugen manchmal mehr Bäume für das Modell. Bei einem Modell mit einer niedrigen Trainingsrate ist es weniger wahrscheinlich, dass eine übermäßige Anpassung an den Trainingsdatensatz erfolgt. Modelle mit niedrigen Trainingsraten verwenden in der Regel mehr Bäume, um die optimale Anzahl von Bäumen zu finden.

Fraktion für Teilstichprobe

Die Fraktion für die Teilstichprobe ist die Teilmenge der Daten, die in der Analyse zum Erstellen der einzelnen Bäume verwendet wird.

Maximale Anzahl von Endknoten pro Baum

TreeNet® Regression kombiniert viele kleine CART®-Bäume zu einem leistungsfähigen Modell. Sie können entweder die maximale Anzahl von Endknoten oder die maximale Baumtiefe für diese kleineren CART®-Bäume angeben. Bäume mit mehr Endknoten können komplexere Wechselwirkungen modellieren. Im Allgemeinen könnten Werte über 12 die Analyse verlangsamen, ohne dass das Modell davon stark profitiert.

Maximale Baumtiefe

TreeNet® Regression kombiniert viele kleine CART®-Bäume zu einem leistungsfähigen Modell. Sie können entweder die maximale Anzahl von Endknoten oder die maximale Baumtiefe für diese kleineren CART®-Bäume angeben. Tiefere Bäume können komplexere Wechselwirkungen modellieren. Werte von 4 bis 6 sind für viele Datensätze ausreichend.