Prozent der Fehlerstatistiken aufgrund der größten Residuen für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet® Regression

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Verwenden Sie die Prozentsätze der Fehlerstatistiken, um den Fehlerbetrag in den Anpassungen des Modells ausgehend von den schlechtesten Anpassungen zu untersuchen. Wenn die Analyse ein Validierungsverfahren verwendet, können Sie auch die Statistiken des Modells für die Trainings- und Testdaten vergleichen.

In jeder Zeile der Tabelle werden die Fehlerstatistiken für den angegebenen Prozentsatz von Residuen angezeigt. Der Prozentsatz des mittleren quadrierten Fehlers (MSE), der aus den größten Residuen stammt, ist in der Regel höher als die Prozentsätze für die beiden anderen Statistiken. In den Berechnungen des MSE werden die quadrierten Fehler verwendet. Daher haben die extremsten Beobachtungen in der Regel die größte Auswirkung auf die Statistik. Große Unterschiede zwischen den Prozentsätzen der Fehler für den MSE und die beiden anderen Maße können darauf hindeuten, dass das Modell empfindlicher auf das Teilen der Knoten anhand des geringsten quadrierten Fehlers oder der geringsten absoluten Abweichung reagiert.

Bei der Verwendung eines Validierungsverfahrens berechnet Minitab separate Statistiken für die Trainings- und die Testdaten. Sie können die Statistiken vergleichen, um die relative Leistung des Modells für die Trainingsdaten und neue Daten zu untersuchen. Die Teststatistiken sind im Allgemeinen ein besseres Maß für die Leistung des Modells in Bezug auf neue Daten.

Ein mögliches Muster ist, dass ein kleiner Prozentsatz der Residuen einen großen Anteil des Fehlers in den Daten bewirkt. In der folgenden Tabelle beträgt die Gesamtgröße des Datensatzes beispielsweise etwa 4400. Aus Sicht der bedeutet dies, dass 1% der Daten etwa 13% des Fehlers ausmachen. In einem solchen Fall können die 31 Fälle, die den größten Teil des Fehlers zum Modell beitragen, die natürlichste Möglichkeit darstellen, das Modell zu verbessern. Wird eine Möglichkeit ermittelt, die Anpassungen für diese Fälle zu verbessern, führt dies zu einer relativ starken Verbesserung der Gesamtleistung des Modells.

Diese Bedingung kann auch darauf hinweisen, dass Sie mehr Vertrauen in Knoten des Modells haben können, die keine Fälle mit den größten Fehlern haben. Da der Großteil des Fehlers aus einer kleinen Anzahl von Fällen stammt, zeichnen sich die Anpassungen für die anderen Fälle durch eine relativ höhere Genauigkeit aus.

TreeNet®-Regression: Kreditbetrag vs Jahreseinkom; Einkommensqu; ...

Prozent der Fehlerstatistiken aufgrund der größten Residuen % der größten Schulungen Test Residuen Anzahl % MSE % MAD % MAPE Anzahl % MSE % MAD % MAPE 1,0 31 13,2824 4,9997 8,0885 14 21,6989 6,9082 9,0517 2,0 62 21,3764 8,9374 12,9910 27 31,9396 11,6377 14,0987 2,5 77 24,7125 10,6967 14,9989 33 35,7935 13,6106 16,1761 3,0 93 27,9315 12,4817 17,0128 40 39,8022 15,7838 18,4925 4,0 123 33,2979 15,6372 20,4671 53 45,8259 19,4124 22,4744 5,0 154 38,1707 18,6937 23,7785 66 50,8291 22,7194 25,9526 7,5 231 47,9001 25,4954 31,0104 98 59,7000 29,6264 33,2548 10,0 307 55,3764 31,4216 37,0787 131 66,4339 35,7333 39,2610 15,0 461 66,7462 41,8167 47,2740 196 75,4853 45,6703 48,6658 20,0 614 74,8066 50,5429 55,5443 261 81,6292 53,8603 56,3489