Boxplot der Antwort nach Endknoten angeordnet für CART® Regression

Die Boxplots bieten eine grafische Zusammenfassung der Verteilung der Antwortvariablen in jedem Endknoten. Verwenden Sie die Boxplots, um Form, Zentraltendenz und Streuung der Knoten zu vergleichen. Boxplots sind bessere visuelle Darstellungen der Werte der Antwortvariablen, wenn die Anzahl der Fälle in einem Endknoten größer als 20 ist.

Interpretation

In der Standardeinstellung sind die Knoten vom kleinsten bis zum größten Fehler geordnet. Beim Ausführen der Analyse können Sie eine Option zum Sortieren der Knoten nach Identifikationsnummer aufrufen. Klicken Sie dazu auf die Schaltfläche Grafiken.

Wenn bei der Analyse ein Testdatensatz verwendet wird, enthält die Grafik separate Boxplots für die Trainings- und die Testdaten. Die Leistung des Baums für die Testdaten stellt in der Regel besser dar, welche Leistung der Baum für neue Daten aufweist. Große Unterschiede zwischen den Test- und Trainingsdaten sollten untersucht werden.

Im folgenden Diagramm gehören drei der höchsten Mediane zu den Endknoten 17, 16 und 14, die auch die kleinsten Fehler aufweisen. Endknoten 1 hat den kleinsten Median. Endknoten 1 und 3 haben jeweils einen Ausreißer, während andere Endknoten mit Ausreißern jeweils mehrere Ausreißer aufweisen. Der Fehler für Endknoten 8 ist am größten.