Prozent der Fehlerstatistiken aufgrund der größten Residuen für CART® Regression

Verwenden Sie die Prozentsätze der Fehlerstatistiken, um den Fehlerbetrag in den Anpassungen des Baums ausgehend von den schlechtesten Anpassungen zu untersuchen. Wenn die Analyse ein Validierungsverfahren verwendet, können Sie auch die Statistiken des Baums für die Trainings- und die Testdaten vergleichen.

In jeder Zeile der Tabelle werden die Fehlerstatistiken für den angegebenen Prozentsatz von Residuen angezeigt. Der Prozentsatz des mittleren quadrierten Fehlers (MSE), der aus den größten Residuen stammt, ist in der Regel höher als die Prozentsätze für die beiden anderen Statistiken. In den Berechnungen des MSE werden die quadrierten Fehler verwendet. Daher haben die extremsten Beobachtungen in der Regel die größte Auswirkung auf die Statistik. Große Unterschiede zwischen den Prozentsätzen der Fehler für den MSE und die beiden anderen Maße können darauf hindeuten, dass der Baum empfindlicher auf das Teilen der Knoten anhand des geringsten quadrierten Fehlers oder der geringsten absoluten Abweichung reagiert.

Bei der Verwendung eines Validierungsverfahrens berechnet Minitab separate Statistiken für die Trainings- und die Testdaten. Sie können die Statistiken vergleichen, um die relative Leistung des Baums für die Trainingsdaten und neue Daten zu untersuchen. Die Teststatistiken sind im Allgemeinen ein besseres Maß für die Leistung des Baums in Bezug auf neue Daten.

Ein mögliches Muster ist, dass ein kleiner Prozentsatz der Residuen einen großen Anteil des Fehlers in den Daten bewirkt. In der folgenden Tabelle beträgt die Gesamtgröße des Datensatzes beispielsweise etwa 4500. Hinsichtlich des MSE bedeutet dies, dass 1 % der Daten etwa 12 % des Fehlers erklären. In einem solchen Fall können die 45 Fälle, die den größten Teil des Fehlers zum Baum beitragen, die natürlichste Möglichkeit darstellen, den Baum zu verbessern. Wird eine Möglichkeit ermittelt, die Anpassungen für diese Fälle zu verbessern, führt dies zu einer relativ starken Verbesserung der Gesamtleistung des Baums.

Diese Bedingung kann auch darauf hinweisen, dass Sie mehr Vertrauen in Knoten des Baums haben können, die keine Fälle mit den größten Fehlern haben. Da der Großteil des Fehlers aus einer kleinen Anzahl von Fällen stammt, zeichnen sich die Anpassungen für die anderen Fälle durch eine relativ höhere Genauigkeit aus.

CART® Regression für Knoten 17: Dauer des Dienstes vs. Alter bei der Zulassung; Alter des ersten Drogenkonsums; Festnahmen in den letzten 30 Ta; Tage warten auf Service; Vorherige Behandlungsepisoden; Jahre der Bildung; Andere stimulierende Verwendung; Geplante Medikamentöse Therapie; Psychiatrischer Zustand; Schwanger; Geschlecht; Veteran; Alkoholkonsum; Kokainkonsum; Marihuana-Konsum; Heroinkonsum; Andere Opiod-Verwendung; PCP-Nutzung; Mehtadone Verwendung; Andere Halluzinogen-Anwendung; Methamphetamin-Einsatz; Anderer Amphetaminkonsum; Benzodiazepin Anwendung; Andere Tranquilizer Verwendung; Barbituate Verwendung; Andere Beruhigungsmittel verwen; Inhalant Anwendung; Nicht verschreibungspflichtige; Sonstiger Drogenkonsum; Intravenöser Drogenkonsum; Wohnarrangements; Häufigkeit des Substanzmissbrau; Krankenversicherung; Familienstand; Ethnizität; Einkommensquelle; Primäre Einnahmeroute von Sub; Selbsthilfe-Teilnahme; Zahlungsquelle; Rennen; Beschäftigungsstatus; Empfehlungsquelle; Primäre Substanz des Missbrauch; DSM-Diagnose

Prozent der Fehlerstatistiken aufgrund der größten Residuen % der größten Schulungen Test Residuen Anzahl % MSE % MAD % MAPE % MSE % MAD % MAPE 1,0 45 12,0662 4,4286 17,0993 11,7595 4,3601 16,9809 2,0 90 19,6105 7,9590 27,7611 19,0639 7,8242 28,0537 2,5 112 22,6611 9,5292 31,4313 22,0671 9,3775 31,8497 3,0 134 25,4267 11,0245 35,1014 24,7926 10,8576 35,4683 4,0 179 30,3473 13,8759 42,6086 29,7103 13,7003 42,7628 5,0 223 34,5866 16,4938 49,9489 33,9523 16,3116 49,8103 7,5 334 43,2672 22,4419 63,2850 43,0319 22,3750 63,0140 10,0 446 50,4797 27,8875 70,7239 50,3414 27,8406 70,3832 15,0 668 61,1200 37,1919 78,5216 61,0161 37,1327 78,1782 20,0 891 69,2319 45,3354 82,5577 69,0602 45,2227 82,2440