Optimierung der Hyperparameter für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet^®-Klassifikation

Hier finden Sie Definitionen und Anleitungen zur Interpretation für die Tabelle zur Modellauswertung.

Hinweis

Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Trainingsrate
Fraktion für Teilstichprobe
Maximale Anzahl von Endknoten pro Baum
Maximale Baumtiefe

Verwenden Sie die Ergebnisse, um zu vergleichen, wie gut die Modelle mit unterschiedlichen Einstellungen für die Hyperparameter funktionieren. Klicken Sie auf Optimieren von Hyperparametern, um zusätzliche Werte der Hyperparameter auszuwerten.

Optimale Anzahl von Bäumen

Die optimale Anzahl von Bäumen unterscheidet sich in der Regel bei jedem Schritt. Wenn die optimale Anzahl nahe an der maximalen Anzahl von Bäumen für die Analyse liegt, wird sich das Modell eher verbessern, wenn Sie die Anzahl der Bäume erhöhen, als ein Modell mit einer optimalen Anzahl von Bäumen, die weit vom Maximum entfernt ist. Sie können überlegen, ob Sie ein alternatives Modell, das sich wahrscheinlich verbessern wird, weiter erforschen.

Durchschnittliche –Log-Likelihood

Die durchschnittliche –Log-Likelihood ist ein Maß für die Modellgenauigkeit. Kleinere Werte weisen auf eine bessere Anpassung hin.

Wenn die Antwort binär ist, können Sie die maximale Log-Likelihood als Kriterium für die Auswahl des besten Modells verwenden. Die vollständigen Ergebnisse, die auf die Tabelle folgen, gelten für das Modell mit dem geringsten Wert der durchschnittlichen –Log-Likelihood.

Fläche unterhalb der ROC-Kurve

Die ROC-Kurve zeigt die Richtig-Positiv-Rate (TPR), auch als Trennschärfe bezeichnet, auf der y-Achse. Die ROC-Kurve zeigt die Falsch-Positiv-Rate (FPR), auch als Fehler 1. Art bezeichnet, auf der x-Achse. Die Fläche unter einer ROC-Kurve gibt an, ob das Modell ein guter Klassifikator ist.

Bei Klassifikationsbäumen nimmt die Fläche unter der ROC-Kurve in der Regel Werte von 0,5 bis 1 an. Je größer die Werte, desto besser ist das Klassifikationsmodell. Wenn das Modell die Klassen perfekt trennen kann, entspricht die Fläche unter der Kurve 1. Wenn das Modell die Klassen nicht besser als eine zufällige Einteilung trennen kann, entspricht die Fläche unter der Kurve 0,5.

Wenn Sie die maximale Fläche unter der ROC-Kurve als Kriterium für die Auswahl des besten Modells verwenden, enthält die Tabelle den Bereich unter der ROC-Kurve für jedes Modell. Die vollständigen Ergebnisse, die der Tabelle folgen, gelten für das Modell mit der größten Fläche unter der ROC-Kurve.

Fehlklassifizierungsrate

Die Fehlklassifizierungsrate gibt an, wie oft das Modell die Antwortwerte richtig klassifiziert. Kleinere Werte weisen auf eine bessere Leistung hin.

Wenn Sie die minimale Fehlklassifizierungsrate als Kriterium für die Auswahl des besten Modells verwenden, enthält die Tabelle die Fehlklassifizierungsrate für jedes Modell. Die vollständigen Ergebnisse, die auf die Tabelle folgen, gelten für das Modell mit der geringsten Fehlklassifizierungsrate.

Trainingsrate

Bei niedrigen Trainingsraten wird jeder neue Baum im Modell geringer als bei einer höheren Trainingsrate gewichtet; sie erzeugen manchmal mehr Bäume für das Modell. Bei einem Modell mit einer niedrigen Trainingsrate ist es weniger wahrscheinlich, dass eine übermäßige Anpassung an den Trainingsdatensatz erfolgt. Modelle mit niedrigen Trainingsraten verwenden in der Regel mehr Bäume, um die optimale Anzahl von Bäumen zu finden.

Fraktion für Teilstichprobe

Die Fraktion für die Teilstichprobe ist die Teilmenge der Daten, die in der Analyse zum Erstellen der einzelnen Bäume verwendet wird.

Maximale Anzahl von Endknoten pro Baum

TreeNet^®-Klassifikation kombiniert viele kleine CART®-Bäume zu einem leistungsfähigen Modell. Die Tabelle enthält den in der Analyse enthaltenen Hyperparameter, entweder die maximale Anzahl der Endknoten pro Baum oder die maximale Baumtiefe. Bäume mit mehr Endknoten können komplexere Wechselwirkungen modellieren. Im Allgemeinen könnten Werte über 12 die Analyse verlangsamen, ohne dass das Modell davon stark profitiert.

Maximale Baumtiefe

TreeNet^®-Klassifikation kombiniert viele kleine CART®-Bäume zu einem leistungsfähigen Modell. Sie können entweder die maximale Anzahl von Endknoten oder die maximale Baumtiefe für diese kleineren CART®-Bäume angeben. Tiefere Bäume können komplexere Wechselwirkungen modellieren. Werte von 4 bis 6 sind für viele Datensätze ausreichend.

Optimierung der Hyperparameter für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet®-Klassifikation