Prozent der Fehlerstatistiken aufgrund der größten Residuen für Random Forests® Regression

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Verwenden Sie die Prozentsätze der Fehlerstatistiken, um den Fehlerbetrag in den Anpassungen des Modells ausgehend von den schlechtesten Anpassungen zu untersuchen.

In jeder Zeile der Tabelle werden die Fehlerstatistiken für den angegebenen Prozentsatz von Residuen angezeigt. Der Prozentsatz des mittleren quadrierten Fehlers (MSE), der aus den größten Residuen stammt, ist in der Regel höher als die Prozentsätze für die beiden anderen Statistiken. In den Berechnungen des MSE werden die quadrierten Fehler verwendet. Daher haben die extremsten Beobachtungen in der Regel die größte Auswirkung auf die Statistik.

Wenn Sie die Validierung mit einem Testdatensatz zusätzlich zur Validierung mit Daten von außerhalb des Segments auswählen, werden in der Tabelle die Ergebnisse sowohl für die Daten von außerhalb des Segments als auch für die Daten des Testdatensatzes angezeigt.

Ein mögliches Muster ist, dass ein kleiner Prozentsatz der Residuen einen großen Anteil des Fehlers in den Daten bewirkt. In der folgenden Tabelle beträgt die Gesamtgröße des Datensatzes beispielsweise etwa 2930. Hinsichtlich des MSE bedeutet dies, dass 1 % der Daten etwa 36% des Fehlers erklären. In einem solchen Fall können die 30 Fälle, die den größten Teil des Fehlers zum Modell beitragen, die natürlichste Möglichkeit darstellen, das Modell zu verbessern. Wird eine Möglichkeit ermittelt, die Anpassungen für diese Fälle zu verbessern, führt dies zu einer relativ starken Verbesserung der Gesamtleistung des Modells.

Diese Bedingung kann auch darauf hinweisen, dass Sie mehr Vertrauen in Knoten des Modells haben können, die keine Fälle mit den größten Fehlern haben. Da der Großteil des Fehlers aus einer kleinen Anzahl von Fällen stammt, zeichnen sich die Anpassungen für die anderen Fälle durch eine relativ höhere Genauigkeit aus.

Random Forests® Regression: Sale Price vs Lot Frontage, Lot Area, ...

Percent of Error Statistics Due to Largest Residuals % of Largest Out-of-Bag Residuals Count % MSE % MAD % MAPE 1.0 30 36.3855 9.5840 13.0409 2.0 59 46.9434 14.8347 18.0932 2.5 74 50.3622 16.9953 20.2317 3.0 88 53.1701 18.8880 22.0186 4.0 118 58.0879 22.5527 25.4151 5.0 147 62.0425 25.7845 28.3840 7.5 220 69.7824 32.9504 34.8161 10.0 293 75.0273 38.8507 40.2386 15.0 440 82.2816 48.6881 49.2733 20.0 586 86.9557 56.5610 56.7304