Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.
TreeNet®-Modelle stellen einen Ansatz zum Beheben von Klassifizierungs- und Regressionsproblemen dar, die sowohl genauer als ein einzelner Klassifizierungs- oder Regressionsbaum als auch resistent gegen übermäßige Anpassung sind. Die grobe, allgemeine Beschreibung des Prozesses ist, dass ein kleiner Regressionsbaum das Ausgangsmodell darstellt. Aus diesem Baum ergeben sich Residuen für jede Zeile in den Daten, die zur Antwortvariablen für den nächsten Regressionsbaum werden. Anschließend wird ein weiterer kleiner Regressionsbaum erstellt, um die Residuen aus dem ersten Baum zu prognostizieren und die resultierenden Residuen zu berechnen. Diese Sequenz wiederholen wir, bis eine optimale Anzahl von Bäumen mit minimalem Prädiktionsfehler mithilfe einer Validierungsmethode identifiziert ist. Die resultierende Reihenfolge der Bäume ergibt das TreeNet® Klassifikationsmodell.
Für die Klassifizierung könnten einige weitere mathematische Details für eine Analyse mit einer binären Antwortvariablen und für eine Analyse mit einer multinomialen Antwortvariablen hinzugefügt werden.
Dabei gilt: ist die Anzahl der Ereignisse und ist die Anzahl der Nicht-Ereignisse.
Eingabe | Symbol |
---|---|
Trainingsrate | |
Stichprobenrate | |
maximale Anzahl der Endknoten pro Baum | |
Anzahl der Bäume |
und ist ein Vektor, der die i.-te Zeile der Prädiktorwerte in den Trainingsdaten darstellt.
Begriff | Beschreibung |
---|---|
Anzahl der Ereignisse im Endknoten m bei Baum j | |
Anzahl der Fälle im Endknoten m bei Baum j | |
arithmetisches Mittel von für alle Fälle im Endknoten m bei Baum j |
Dabei gilt: ist die Anzahl der Fälle, in denen der Antwortwert k und N die Anzahl der Zeilen in den Trainingsdaten ist.
Eingabe | Symbol |
---|---|
Trainingsrate | |
Stichprobenrate | |
maximale Anzahl der Endknoten pro Baum | |
Anzahl der Bäume |
Die Berechnung der Wahrscheinlichkeiten aus den Anpassungen berücksichtigt die Abhängigkeit dieser Bäume. Andernfalls ist der Prozess im Wesentlichen derselbe wie für den binären Fall.
Dabei gilt Folgendes:
und ist ein Vektor, der die i-te Zeile der Prädiktorwerte im Trainingsdatensatz darstellt.
Dabei gilt Folgendes:
Begriff | Beschreibung |
---|---|
Anzahl der Fälle für Kategorie k im Endknoten m bei Baum j | |
Anzahl der Fälle im Endknoten m bei Baum j | |
arithmetisches Mittel von für alle Fälle im Endknoten m bei Baum j. |