Im Diagramm von R-Quadrat vs. Anzahl der Endknoten wird das R2 für jeden Baum angezeigt. In der Standardeinstellung ist der anfängliche Regressionsbaum der kleinste Baum mit einem R2 innerhalb von 1 Standardfehler des Werts für den Baum mit dem maximalen R2. Wenn für die Analyse die Kreuzvalidierung oder ein Testdatensatz verwendet wird, stammt das R2 aus der Validierungsstichprobe. Die Werte für die Validierungsstichprobe flachen in der Regel ab und fallen schließlich mit zunehmender Größe des Baums ab.
Klicken Sie auf Alternativbaum auswählen, um ein interaktives Diagramm zu öffnen, das eine Tabelle mit Statistiken zur Zusammenfassung des Modells enthält. Verwenden Sie das Diagramm, um Alternativbäume mit ähnlicher Leistung zu untersuchen.
Der Regressionsbaum mit 21 Endknoten hat ein R2 von etwa 0,78. Dieser Baum ist mit „Optimal“ beschriftet, da das Kriterium für die Erstellung des Baums der kleinste Baum mit einem R2 innerhalb von 1 Standardabweichung des maximalen R2 war. Da dieses Diagramm zeigt, dass die R2-Werte ab Bäumen mit etwa 20 Knoten bis hin zu Bäumen mit etwa 70 Knoten relativ stabil sind, möchten die Forscher die Leistung einiger der noch kleineren Bäume betrachten, die dem Baum in den Ergebnissen ähneln. Betrachten Sie als Vergleich die nächste Grafik mit den Ergebnissen für einen Baum mit 17 Knoten.
Der Regressionsbaum mit 17 Endknoten hat ein R2 von 0,7661. Die Beschriftung „Optimal“ für den Baum aus den anfänglichen Ergebnissen wird beibehalten, wenn Sie Alternativbaum auswählen verwenden, um Ergebnisse für einen anderen Baum zu erstellen.
Untersuchen Sie nach dem Auswählen eines Baums die eindeutigen Endknoten im Baumdiagramm. So könnten beispielsweise Knoten mit großen Mittelwerten oder kleinen Standardabweichungen von Interesse sein. In der Detailansicht sehen Sie den Mittelwert, die Standardabweichung und die Gesamtanzahlen für jeden Knoten.
Klicken Sie mit der rechten Maustaste auf das Baumdiagramm, um die folgenden Vorgänge auszuführen:
Knoten werden so lange weiter geteilt, bis die Endknoten nicht in weitere Gruppen geteilt werden können. Untersuchen Sie andere Knoten, um zu sehen, welche Variablen von größtem Interesse sind.
Das Baumdiagramm zeigt alle 4453 Fälle aus dem vollständigen Datensatz. Sie können zwischen der Detailansicht und der Knotenteilungsansicht des Baums umschalten.
Anschließend wird Knoten 2 anhand von Häufigkeit des Substanzmissbrauchs geteilt, und Knoten 8 wird anhand von Alkoholkonsum geteilt. Endknoten 17 enthält die Fälle für Geplante Medikamentöse Therapie = 2, Alkoholkonsum = 1 und Empfehlungsquelle = 3, 5, 6, 100, 300, 400, 600, 700 oder 800. Die Forscher stellen fest, dass Endknoten 17 den höchsten Mittelwert, die kleinste Standardabweichung und die meisten Fälle aufweist.
Endknoten 1 weist den kleinsten Mittelwert auf und hat eine Standardabweichung von etwa 4,3. Da der Mittelwert von Endknoten 1 etwa 5,9 beträgt und die Werte der Antwortvariablen nicht negativ sein können, deuten die Knotenstatistiken darauf hin, dass die Daten in Endknoten 1 wahrscheinlich rechtsschief sind.
Verwenden Sie das Diagramm der relativen Variablenwichtigkeit, um zu ermitteln, welche Prädiktoren die wichtigsten Variablen für den Baum sind.
Wichtige Variablen sind primäre oder Surrogat-Teiler im Baum. Die Variable mit dem höchsten Verbesserungswert wird als wichtigste Variable festgelegt, die übrigen Variablen folgen in entsprechender Reihenfolge. Bei der relativen Variablenwichtigkeit werden die Wichtigkeitswerte standardisiert, sodass sie leichter interpretiert werden können. Die relative Wichtigkeit ist als die prozentuale Verbesserung in Bezug auf den wichtigsten Prädiktor definiert.
Die relative Variablenwichtigkeit kann Werte von 0 % bis 100 % annehmen. Die wichtigste Variable hat immer eine relative Wichtigkeit von 100 %. Befindet sich eine Variable nicht im Baum, ist sie nicht wichtig.
Obwohl diese Ergebnisse 33 Variablen mit positiver Wichtigkeit umfassen, liefert die relative Rangfolge Informationen darüber, wie viele Variablen für eine bestimmte Anwendung kontrolliert oder überwacht werden müssen. Ein steiler Abfall der relativen Wichtigkeit von einer Variablen zur nächsten Variablen können Ihnen die Entscheidung darüber erleichtern, welche Variablen zu kontrollieren oder zu überwachen sind. In diesen Daten weisen beispielsweise die drei wichtigsten Variablen Wichtigkeitswerte auf, die relativ nah beieinander liegen, bevor ein Abfall der relativen Wichtigkeit von fast 40 % zur nächsten Variablen zu beobachten ist. Außerdem weisen drei Variablen ähnliche Wichtigkeitswerte von annähernd 50 % auf. Sie können Variablen aus verschiedenen Gruppen entfernen und die Analyse wiederholen, um auszuwerten, wie Variablen in verschiedenen Gruppen die Prognosegenauigkeit in der Tabelle mit der Zusammenfassung des Modells beeinflussen.