Boxplot der Residuen für CART® Regression

Verwenden Sie das Boxplot der Residuen, um die Gesamtgenauigkeit des Baums auszuwerten. Wenn die Analyse ein Validierungsverfahren verwendet, können Sie auch die Genauigkeit des Baums für die Trainings- und Testdaten vergleichen.

Das Boxplot veranschaulicht die Differenz zwischen den tatsächlichen und den angepassten Werten. Punkte, die um mehr als das 1,5-fache des Interquartilbereichs vom nächstgelegenen Quartil entfernt liegen, verfügen über individuelle Symbole.

Interpretation

Im Idealfall liegen sämtliche Residuen nahe 0, relativ zur Skala der Antwortvariablen. Bei der Verwendung eines Validierungsverfahrens erstellt Minitab separate Diagramme für die Trainings- und die Testdaten. Sie können die Diagramme vergleichen, um die relative Leistung des Baums für die Trainingsdaten und neue Daten zu untersuchen. Sie können auch nach anderen Mustern suchen, die auf einen Unterschied zwischen den Trainings- und Testdaten hinweisen könnten, welcher untersucht werden sollte.

Diese Boxplots zeigen ähnliche Ergebnisse für den Trainings- und den Testdatensatz. Diese Ähnlichkeit deutet darauf hin, dass die Leistung des Baums für neue Daten beinahe der Leistung des Baums für die Trainingsdaten entspricht.

Der Interquartilbereich der Boxplots für beide Datensätze liegt zwischen ungefähr –2,6 und 2,6. 50 % der Daten weisen Residuen innerhalb dieses Bereichs auf. Die übrigen Residuen sind größer. Da der Interquartilbereich etwa 5 beträgt, weisen Residuen außerhalb des ungefähren Bereichs von –10,5 bis 10,5 individuelle Symbole auf. Die größten Residuen liegen in positiver und negativer Richtung annähernd bei 20. Diese großen Residuen können darauf hinweisen, dass der Baum nicht für alle Daten passend ist.