CART® 회귀 분석에 대한 최대 잔차로 인한 오차 통계의 백분율

오차 통계의 백분율을 사용하여 트리의 오류 양을 최악의 적합에서 검사합니다. 분석에서 검증 기술을 사용하는 경우 학습 및 검정 데이터에 대한 트리의 통계를 비교할 수도 있습니다.

표의 각 행은 잔차의 지정된 백분율에 대한 오차 통계를 표시합니다. 최대 잔차에서 제공되는 평균 제곱 오차(MSE)의 백분율은 일반적으로 다른 두 통계의 백분율보다 높습니다. MSE는 계산에서 오차 제곱을 사용하므로 가장 극단적인 관측값은 일반적으로 통계에 가장 큰 영향을 미칩니다. MSE에 대한 오차 백분율과 다른 두 측정값 간의 큰 차이는 트리가 최소 제곱 오차 또는 최소 절대 편차가 있는 노드를 분할하는 선택에 더 민감하다는 것을 나타낼 수 있습니다.

검증 기술을 사용하는 경우 Minitab은 학습 데이터와 검정 데이터에 대한 별도의 통계를 계산합니다. 통계를 비교하여 학습 데이터와 새 데이터에 대한 트리의 상대적 성능을 검사할 수 있습니다. 검정 통계는 일반적으로 트리가 새 데이터에 대해 수행하는 방법을 더 잘 측정합니다.

가능한 패턴은 잔차의 작은 비율이 데이터에 있는 오차의 상당 부분을 차지한다는 것입니다. 예를 들어 다음 표에서 데이터 세트의 총 크기는 약 4500입니다. MSE 관점에서 이는 데이터의 1%가 약 12%의 오차를 차지한다는 것을 나타냅니다. 이러한 경우 트리에 대부분의 오차를 기여하는 45개 사례는 트리를 개선할 수 있는 가장 자연스러운 기회를 나타낼 수 있습니다. 이러한 사례에서 적합도를 개선할 수 있는 방법을 찾으면 트리의 전반적인 성능이 상대적으로 크게 증가합니다.

이 조건은 최대 오차가 있는 사례가 없는 트리의 노드에 대한 신뢰도를 높일 수 있음을 나타낼 수도 있습니다. 대부분의 오차는 소수의 사례에서 비롯되므로 다른 사례에 대한 적합도가 상대적으로 더 정확합니다.

최대 잔차로 인한 오차 통계량의 퍼센트



교육검정
최대 잔차의 비율(%)카운트% MSE% MAD% MAPE% MSE% MAD% MAPE
1.04512.06624.428617.099311.75954.360116.9809
2.09019.61057.959027.761119.06397.824228.0537
2.511222.66119.529231.431322.06719.377531.8497
3.013425.426711.024535.101424.792610.857635.4683
4.017930.347313.875942.608629.710313.700342.7628
5.022334.586616.493849.948933.952316.311649.8103
7.533443.267222.441963.285043.031922.375063.0140
10.044650.479727.887570.723950.341427.840670.3832
15.066861.120037.191978.521661.016137.132778.1782
20.089169.231945.335482.557769.060245.222782.2440