표의 각 행은 잔차의 지정된 백분율에 대한 오차 통계를 표시합니다. 최대 잔차에서 제공되는 평균 제곱 오차(MSE)의 백분율은 일반적으로 다른 두 통계의 백분율보다 높습니다. MSE는 계산에서 오차 제곱을 사용하므로 가장 극단적인 관측값은 일반적으로 통계에 가장 큰 영향을 미칩니다. MSE에 대한 오차 백분율과 다른 두 측정값 간의 큰 차이는 트리가 최소 제곱 오차 또는 최소 절대 편차가 있는 노드를 분할하는 선택에 더 민감하다는 것을 나타낼 수 있습니다.
검증 기술을 사용하는 경우 Minitab은 학습 데이터와 검정 데이터에 대한 별도의 통계를 계산합니다. 통계를 비교하여 학습 데이터와 새 데이터에 대한 트리의 상대적 성능을 검사할 수 있습니다. 검정 통계는 일반적으로 트리가 새 데이터에 대해 수행하는 방법을 더 잘 측정합니다.
가능한 패턴은 잔차의 작은 비율이 데이터에 있는 오차의 상당 부분을 차지한다는 것입니다. 예를 들어 다음 표에서 데이터 세트의 총 크기는 약 4500입니다. MSE 관점에서 이는 데이터의 1%가 약 12%의 오차를 차지한다는 것을 나타냅니다. 이러한 경우 트리에 대부분의 오차를 기여하는 45개 사례는 트리를 개선할 수 있는 가장 자연스러운 기회를 나타낼 수 있습니다. 이러한 사례에서 적합도를 개선할 수 있는 방법을 찾으면 트리의 전반적인 성능이 상대적으로 크게 증가합니다.
이 조건은 최대 오차가 있는 사례가 없는 트리의 노드에 대한 신뢰도를 높일 수 있음을 나타낼 수도 있습니다. 대부분의 오차는 소수의 사례에서 비롯되므로 다른 사례에 대한 적합도가 상대적으로 더 정확합니다.
교육 | 검정 | ||||||
---|---|---|---|---|---|---|---|
최대 잔차의 비율(%) | 카운트 | % MSE | % MAD | % MAPE | % MSE | % MAD | % MAPE |
1.0 | 45 | 12.0662 | 4.4286 | 17.0993 | 11.7595 | 4.3601 | 16.9809 |
2.0 | 90 | 19.6105 | 7.9590 | 27.7611 | 19.0639 | 7.8242 | 28.0537 |
2.5 | 112 | 22.6611 | 9.5292 | 31.4313 | 22.0671 | 9.3775 | 31.8497 |
3.0 | 134 | 25.4267 | 11.0245 | 35.1014 | 24.7926 | 10.8576 | 35.4683 |
4.0 | 179 | 30.3473 | 13.8759 | 42.6086 | 29.7103 | 13.7003 | 42.7628 |
5.0 | 223 | 34.5866 | 16.4938 | 49.9489 | 33.9523 | 16.3116 | 49.8103 |
7.5 | 334 | 43.2672 | 22.4419 | 63.2850 | 43.0319 | 22.3750 | 63.0140 |
10.0 | 446 | 50.4797 | 27.8875 | 70.7239 | 50.3414 | 27.8406 | 70.3832 |
15.0 | 668 | 61.1200 | 37.1919 | 78.5216 | 61.0161 | 37.1327 | 78.1782 |
20.0 | 891 | 69.2319 | 45.3354 | 82.5577 | 69.0602 | 45.2227 | 82.2440 |