Diagramm von R-Quadrat vs. Anzahl der Endknoten für CART® Regression

Minitab zeigt ein Diagramm des R2 im Vergleich mit der Anzahl der Endknoten im Baum an, sodass Sie einen Baum zur weiteren Auswertung auswählen können. Wenn Sie einen Testdatensatz oder eine Kreuzvalidierung mit K Faltungen verwenden, um die Leistung des Baums zu validieren, bezieht sich das R2 auf die Validierungsdaten.

Im Diagramm von R-Quadrat vs. Anzahl der Endknoten wird das R2 für jeden Baum angezeigt. In der Standardeinstellung ist der anfängliche Regressionsbaum der kleinste Baum mit einem R2 innerhalb von 1 Standardfehler des maximalen R2. Wenn für die Analyse die Kreuzvalidierung oder ein Testdatensatz verwendet wird, stammt das R2 aus der Validierungsstichprobe. Die Werte für die Validierungsstichprobe flachen in der Regel ab und fallen schließlich mit zunehmender Größe des Baums ab.

Klicken Sie auf Alternativbaum auswählen, um ein interaktives Diagramm zu öffnen, das eine Tabelle mit Statistiken zur Zusammenfassung des Modells enthält. Verwenden Sie das Diagramm, um Alternativbäume mit ähnlicher Leistung zu untersuchen.

In der Regel wählen Sie einen Alternativbaum aus einem der beiden folgenden Gründe aus:
  • Der von Minitab ausgewählte Baum ist Teil eines Musters, bei dem sich das Kriterium verbessert. Ein oder mehrere Bäume mit einigen weiteren Knoten sind Teil desselben Musters. Typischerweise möchten Sie Prognosen anhand eines Baums mit einer möglichst großen Prognosegenauigkeit treffen.
  • Der von Minitab ausgewählte Baum ist Teil eines Musters, bei dem das Kriterium relativ flach ist. Eine oder mehrere Bäume mit ähnlichen Statistiken zur Zusammenfassung des Modells weisen viel weniger Knoten als der optimale Baum auf. In der Regel liefert ein Baum mit weniger Endknoten ein klareres Bild davon, wie sich die einzelnen Prädiktorvariablen auf die Werte der Antwortvariablen auswirken. Ein kleinerer Baum erleichtert auch das Identifizieren einiger Zielgruppen für weitere Untersuchungen. Wenn für einen kleineren Baum der Unterschied hinsichtlich der Prognosegenauigkeit zu vernachlässigen ist, können Sie außerdem die Beziehungen zwischen der Antwortvariablen und den Prädiktorvariablen anhand des kleineren Baums auswerten.

Interpretation

Wichtigstes Ergebnis: Diagramm von R-Quadrat vs. Anzahl der Endknoten für einen Baum mit 21 Endknoten

Der Regressionsbaum mit 21 Endknoten hat ein R2 von etwa 0,78. Dieser Baum ist mit „Optimal“ beschriftet, da das Kriterium für die Erstellung des Baums der kleinste Baum mit einem R2 innerhalb von 1 Standardabweichung des maximalen R2 war. Da dieses Diagramm zeigt, dass die R2-Werte ab Bäumen mit etwa 20 Knoten bis hin zu Bäumen mit etwa 70 Knoten relativ stabil sind, möchten die Forscher die Leistung einiger der noch kleineren Bäume betrachten, die dem Baum in den Ergebnissen ähneln. Betrachten Sie als Vergleich die nächste Grafik mit den Ergebnissen für einen Baum mit 17 Knoten.

Wichtigstes Ergebnis: Diagramm von R-Quadrat vs. Anzahl der Endknoten für einen Baum mit 17 Endknoten

Der Regressionsbaum mit 17 Endknoten hat ein R2 von 0,7661. Die Beschriftung „Optimal“ für den Baum aus den anfänglichen Ergebnissen wird beibehalten, wenn Sie Alternativbaum auswählen verwenden, um Ergebnisse für einen anderen Baum zu erstellen.