Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.
TreeNet®-Modelle stellen einen Ansatz zum Beheben von Klassifizierungs- und Regressionsproblemen dar, die sowohl genauer als ein einzelner Klassifizierungs- oder Regressionsbaum als auch resistent gegen übermäßige Anpassung sind. Die grobe, allgemeine Beschreibung des Prozesses ist, dass ein kleiner Regressionsbaum das Ausgangsmodell darstellt. Aus diesem Baum ergeben sich Residuen für jede Zeile in den Daten, die zur Antwortvariablen für den nächsten Regressionsbaum werden. Anschließend wird ein weiterer kleiner Regressionsbaum erstellt, um die Residuen aus dem ersten Baum zu prognostizieren und die resultierenden Residuen zu berechnen. Diese Sequenz wiederholen wir, bis eine optimale Anzahl von Bäumen mit minimalem Prädiktionsfehler mithilfe einer Validierungsmethode identifiziert ist. Die resultierende Reihenfolge der Bäume ergibt das TreeNet® Regressionsmodell.
Für den Regressionsfall können wir eine allgemeine Beschreibung der Analyse hinzufügen, aber einige Details hängen davon ab, welche der folgenden Funktionen die Verlustfunktion ist:
Statistik | Wert |
---|---|
Anfängliche Anpassung, | Mittelwert der Antwortvariablen |
Generalisiertes Residuum, als Wert der Antwortvariablen für Zeile i | |
Innerhalb von Knotenaktualisierungen, | Mittelwert von |
Statistik | Wert |
---|---|
Anfängliche Anpassung, | Median der Antwortvariablen |
Generalisiertes Residuum, als Wert der Antwortvariablen für Zeile i | |
Innerhalb von Knotenaktualisierungen, | Median von |
Für die Huber-Verlustfunktion ist die Statistik wie folgt:
Die anfängliche Anpassung, , entspricht dem Median aller Antwortwerte.
Für den Ausbau des j-ten Baums,
Dann ist das generalisierte Residuum für die i-te Zeile wie folgt:
Die generalisierten Residuen werden als Antwortwerte verwendet, um den j-ten Baum aufzubauen.
Der aktualisierte Wert für Zeilen im m-ten Endknoten des j-ten Baums lautet wie folgt:
Der Mittelwert im vorherigen Ausdruck wird über alle Zeilen innerhalb des Endknotens m des j-ten Baums berechnet.
In den vorstehenden Details, ist der Wert der Antwortvariablen für Zeile i, ist der angepasste Wert aus den vorherigen j – 1 Bäumen und ist ein Vektor, der die i.-te Zeile der Prädiktorwerte in den Trainingsdaten darstellt.
Eingabe | Symbol |
---|---|
Trainingsrate | |
Stichprobenrate | |
maximale Anzahl der Endknoten pro Baum | |
Anzahl der Bäume | |
Umschaltwert |