Prozent der Fehlerstatistiken aufgrund der größten Residuen für CART® Regression

Verwenden Sie die Prozentsätze der Fehlerstatistiken, um den Fehlerbetrag in den Anpassungen des Baums ausgehend von den schlechtesten Anpassungen zu untersuchen. Wenn die Analyse eine Validierungstechnik verwendet, kann man auch die Genauigkeit des Baums für die Trainingsdaten und die Validierungsergebnisse vergleichen.

In jeder Zeile der Tabelle werden die Fehlerstatistiken für den angegebenen Prozentsatz von Residuen angezeigt. Der Prozentsatz des mittlerer quadrierter Fehler (MSE), der aus den größten Residuen stammt, ist in der Regel höher als die Prozentsätze für die beiden anderen Statistiken. In den Berechnungen des MSE werden die quadrierten Fehler verwendet. Daher haben die extremsten Beobachtungen in der Regel die größte Auswirkung auf die Statistik. Große Unterschiede zwischen den Prozentsätzen der Fehler für den MSE und die beiden anderen Maße können darauf hindeuten, dass der Baum empfindlicher auf das Teilen der Knoten anhand des geringster quadrierter Fehler oder der geringste absolute Abweichung reagiert.

Wenn Sie eine Validierungstechnik verwenden, berechnet Minitab separate Statistiken für die Trainingsdaten und für die Validierungsergebnisse. Sie können die Statistiken vergleichen, um die relative Leistung des Modells für die Trainingsdaten und neue Daten zu untersuchen. Die Validierungsstatistiken sind in der Regel ein besseres Maß dafür, wie das Modell für neue Daten funktioniert.

Ein mögliches Muster ist, dass ein kleiner Prozentsatz der Residuen einen großen Anteil des Fehlers in den Daten bewirkt. In der folgenden Tabelle beträgt die Gesamtgröße des Datensatzes beispielsweise etwa 4500. Hinsichtlich des MSE bedeutet dies, dass 1 % der Daten etwa 12 % des Fehlers erklären. In einem solchen Fall können die 45 Fälle, die den größten Teil des Fehlers zum Baum beitragen, die natürlichste Möglichkeit darstellen, den Baum zu verbessern. Wird eine Möglichkeit ermittelt, die Anpassungen für diese Fälle zu verbessern, führt dies zu einer relativ starken Verbesserung der Gesamtleistung des Baums.

Diese Bedingung kann auch darauf hinweisen, dass Sie mehr Vertrauen in Knoten des Baums haben können, die keine Fälle mit den größten Fehlern haben. Da der Großteil des Fehlers aus einer kleinen Anzahl von Fällen stammt, zeichnen sich die Anpassungen für die anderen Fälle durch eine relativ höhere Genauigkeit aus.

Prozent der Fehlerstatistiken aufgrund der größten Residuen

% der
größten
Residuen








TrainingsKreuzvalidierung
Anzahl% MSE% MAD% MAPE% MSE% MAD% MAPE
1,04512,06624,428617,099311,75954,360116,9809
2,09019,61057,959027,761119,06397,824228,0537
2,511222,66119,529231,431322,06719,377531,8497
3,013425,426711,024535,101424,792610,857635,4683
4,017930,347313,875942,608629,710313,700342,7628
5,022334,586616,493849,948933,952316,311649,8103
7,533443,267222,441963,285043,031922,375063,0140
10,044650,479727,887570,723950,341427,840670,3832
15,066861,120037,191978,521661,016137,132778,1782
20,089169,231945,335482,557769,060245,222782,2440