Prozent der Fehlerstatistiken aufgrund der größten Residuen für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet^® Regression

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Verwenden Sie die Prozentsätze der Fehlerstatistiken, um den Fehlerbetrag in den Anpassungen des Modells ausgehend von den schlechtesten Anpassungen zu untersuchen. Wenn die Analyse ein Validierungsverfahren verwendet, können Sie auch die Statistiken des Modells für die Trainings- und Testdaten vergleichen.

In jeder Zeile der Tabelle werden die Fehlerstatistiken für den angegebenen Prozentsatz von Residuen angezeigt. Der Prozentsatz des mittleren quadrierten Fehlers (MSE), der aus den größten Residuen stammt, ist in der Regel höher als die Prozentsätze für die beiden anderen Statistiken. In den Berechnungen des MSE werden die quadrierten Fehler verwendet. Daher haben die extremsten Beobachtungen in der Regel die größte Auswirkung auf die Statistik. Große Unterschiede zwischen den Prozentsätzen der Fehler für den MSE und die beiden anderen Maße können darauf hindeuten, dass das Modell empfindlicher auf das Teilen der Knoten anhand des geringsten quadrierten Fehlers oder der geringsten absoluten Abweichung reagiert.

Bei der Verwendung eines Validierungsverfahrens berechnet Minitab separate Statistiken für die Trainings- und die Testdaten. Sie können die Statistiken vergleichen, um die relative Leistung des Modells für die Trainingsdaten und neue Daten zu untersuchen. Die Teststatistiken sind im Allgemeinen ein besseres Maß für die Leistung des Modells in Bezug auf neue Daten.

Ein mögliches Muster ist, dass ein kleiner Prozentsatz der Residuen einen großen Anteil des Fehlers in den Daten bewirkt. In der folgenden Tabelle beträgt die Gesamtgröße des Datensatzes beispielsweise etwa 4400. Aus Sicht der bedeutet dies, dass 1% der Daten etwa 13% des Fehlers ausmachen. In einem solchen Fall können die 31 Fälle, die den größten Teil des Fehlers zum Modell beitragen, die natürlichste Möglichkeit darstellen, das Modell zu verbessern. Wird eine Möglichkeit ermittelt, die Anpassungen für diese Fälle zu verbessern, führt dies zu einer relativ starken Verbesserung der Gesamtleistung des Modells.

Diese Bedingung kann auch darauf hinweisen, dass Sie mehr Vertrauen in Knoten des Modells haben können, die keine Fälle mit den größten Fehlern haben. Da der Großteil des Fehlers aus einer kleinen Anzahl von Fällen stammt, zeichnen sich die Anpassungen für die anderen Fälle durch eine relativ höhere Genauigkeit aus.

Prozent der Fehlerstatistiken aufgrund der größten Residuen

% der größten Residuen
	Schulungen				Test
	Anzahl	% MSE	% MAD	% MAPE	Anzahl	% MSE	% MAD	% MAPE
1,0	31	13,2824	4,9997	8,0885	14	21,6989	6,9082	9,0517
2,0	62	21,3764	8,9374	12,9910	27	31,9396	11,6377	14,0987
2,5	77	24,7125	10,6967	14,9989	33	35,7935	13,6106	16,1761
3,0	93	27,9315	12,4817	17,0128	40	39,8022	15,7838	18,4925
4,0	123	33,2979	15,6372	20,4671	53	45,8259	19,4124	22,4744
5,0	154	38,1707	18,6937	23,7785	66	50,8291	22,7194	25,9526
7,5	231	47,9001	25,4954	31,0104	98	59,7000	29,6264	33,2548
10,0	307	55,3764	31,4216	37,0787	131	66,4339	35,7333	39,2610
15,0	461	66,7462	41,8167	47,2740	196	75,4853	45,6703	48,6658
20,0	614	74,8066	50,5429	55,5443	261	81,6292	53,8603	56,3489

Prozent der Fehlerstatistiken aufgrund der größten Residuen für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet® Regression

Hinweis

Prozent der Fehlerstatistiken aufgrund der größten Residuen

Prozent der Fehlerstatistiken aufgrund der größten Residuen für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet^® Regression