Methoden und Formeln für Diagramme der partiellen Abhängigkeit in Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet®-Klassifikation

Hinweis

Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Diagramme der partiellen Abhängigkeit bei einem Prädiktor

Angenommen, es gibt m Prädiktoren in einem Trainingsdatensatz, bezeichnet als x1, x2, ..., xm. Sortieren Sie zunächst die unterschiedlichen Werte von Prädiktor x1 im Trainingsdatensatz in ansteigender Folge. Bezeichnen Sie x11 als ersten eindeutigen Wert von x1. Dann ist x11 die x-Koordinate für den Punkt ganz links in der Grafik.

Die y-Koordinate bei x1 = x11 entspricht
BegriffBeschreibung
Nder Gesamtzahl der Zeilen im Trainingsdatensatz
die beobachteten Werte für im Trainingsdatensatz
jjede einzelne Zeile der J-Zeilen
der angepasste Wert aus dem Modell, wenn x1 = x11, x2 = x2j,...., xm = xmj

Ersetzen wir x11 durch jeden der unterschiedlichen Werte von x1, erhalten wir die y-Koordinaten für den Rest der Punkte im Diagramm. Die Berechnungen für die übrigen Prädiktoren erfolgen auf ähnliche Weise.

Die Berechnung aller y-Koordinaten für alle unterschiedlichen Werte von x kann bei großen Datensätzen zeitaufwendig sein. Für TreeNet® gibt es eine schnellere Möglichkeit, die Berechnungen durchzuführen. Siehe Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 29(5), Seite 1221.

Die Berechnungen für den Fall der multinomiale Antwortvariablen sind ähnlich. Hier stammt der angepasste Wert aus dem Modell für jede einzelne Klasse.

Diagramm der partiellen Abhängigkeit bei zwei Prädiktoren

Angenommen, es gibt m Prädiktoren in einem Trainingsdatensatz, bezeichnet als x1, x2, ..., xm. Sortieren Sie zunächst die unterschiedlichen Werte der Prädiktoren x1, x2 im Trainingsdatensatz in aufsteigender Folge. Bezeichnen Sie X11, x21 als eines der eindeutigen Paare. Anschließend erstellt jedes Paar die x- und y-Koordinaten für einen Punkt auf dem Wirkungsflächendiagramm.

Die Z-Koordinate bei x1 = x11, x2 = x21 gleich
BegriffBeschreibung
Nder Gesamtzahl der Zeilen im Trainingsdatensatz, die alle die Kommunalität von x1 = x11, x2 = x21 gemeinsam haben
die beobachteten Werte für im Trainingsdatensatz
jjede einzelne Zeile der J-Zeilen
der angepasste Wert aus dem Modell, wenn x1 = x11, x2 = x21, x3 = x3j...., xm = xmj

Durch den Abschluss der Berechnungen für alle eindeutigen Wertkombinationen von x1 und x2 werden alle Z-Koordinaten für die Kontur oder das Wirkungsflächendiagramm erzeugt. Bei großen Datensätzen sind die Berechnungen für alle eindeutigen Paare von x und y zeitaufwändig. Für TreeNet®-Modelle gibt es eine schnellere Möglichkeit, die Berechnungen durchzuführen. Siehe Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 29(5), Seite 1221.