Im Diagramm von R-Quadrat vs. Anzahl der Endknoten wird das R2 für jeden Baum angezeigt. In der Standardeinstellung ist der anfängliche Regressionsbaum der kleinste Baum mit einem R2 innerhalb von 1 Standardfehler des Werts für den Baum mit dem maximalen R2. Wenn für die Analyse die Kreuzvalidierung oder ein Testdatensatz verwendet wird, stammt das R2 aus der Validierungsstichprobe. Die Werte für die Validierungsstichprobe flachen in der Regel ab und fallen schließlich mit zunehmender Größe des Baums ab.
Klicken Sie auf Alternativbaum auswählen, um ein interaktives Diagramm zu öffnen, das eine Tabelle mit Statistiken zur Zusammenfassung des Modells enthält. Verwenden Sie das Diagramm, um Alternativbäume mit ähnlicher Leistung zu untersuchen.
Untersuchen Sie nach dem Auswählen eines Baums die eindeutigen Endknoten im Baumdiagramm. So könnten beispielsweise Knoten mit großen Mittelwerten oder kleinen Standardabweichungen von Interesse sein. In der Detailansicht sehen Sie den Mittelwert, die Standardabweichung und die Gesamtanzahlen für jeden Knoten.
Klicken Sie mit der rechten Maustaste auf das Baumdiagramm, um die folgenden Vorgänge auszuführen:
Knoten werden so lange weiter geteilt, bis die Endknoten nicht in weitere Gruppen geteilt werden können. Untersuchen Sie andere Knoten, um zu sehen, welche Variablen von größtem Interesse sind.
Anschließend wird Knoten 2 anhand von Häufigkeit des Substanzmissbrauchs geteilt, und Knoten 8 wird anhand von Alkoholkonsum geteilt. Endknoten 17 enthält die Fälle für Geplante Medikamentöse Therapie = 2, Alkoholkonsum = 1 und Empfehlungsquelle = 3, 5, 6, 100, 300, 400, 600, 700 oder 800. Die Forscher stellen fest, dass Endknoten 17 den höchsten Mittelwert, die kleinste Standardabweichung und die meisten Fälle aufweist.
Endknoten 1 weist den kleinsten Mittelwert auf und hat eine Standardabweichung von etwa 4,3. Da der Mittelwert von Endknoten 1 etwa 5,9 beträgt und die Werte der Antwortvariablen nicht negativ sein können, deuten die Knotenstatistiken darauf hin, dass die Daten in Endknoten 1 wahrscheinlich rechtsschief sind.
Verwenden Sie das Diagramm der relativen Variablenwichtigkeit, um zu ermitteln, welche Prädiktoren die wichtigsten Variablen für den Baum sind.
Wichtige Variablen sind primäre oder Surrogat-Teiler im Baum. Die Variable mit dem höchsten Verbesserungswert wird als wichtigste Variable festgelegt, die übrigen Variablen folgen in entsprechender Reihenfolge. Bei der relativen Variablenwichtigkeit werden die Wichtigkeitswerte standardisiert, sodass sie leichter interpretiert werden können. Die relative Wichtigkeit ist als die prozentuale Verbesserung in Bezug auf den wichtigsten Prädiktor definiert.
Die relative Variablenwichtigkeit kann Werte von 0 % bis 100 % annehmen. Die wichtigste Variable hat immer eine relative Wichtigkeit von 100 %. Befindet sich eine Variable nicht im Baum, ist sie nicht wichtig.