오차 통계의 백분율을 사용하여 트리의 오류 양을 최악의 적합에서 검사합니다. 분석에서 검증 기술을 사용하는 경우 학습 및 검정 데이터에 대한 트리의 통계를 비교할 수도 있습니다.
표의 각 행은 잔차의 지정된 백분율에 대한 오차 통계를 표시합니다. 최대 잔차에서 제공되는 평균 제곱 오차(MSE)의 백분율은 일반적으로 다른 두 통계의 백분율보다 높습니다. MSE는 계산에서 오차 제곱을 사용하므로 가장 극단적인 관측값은 일반적으로 통계에 가장 큰 영향을 미칩니다. MSE에 대한 오차 백분율과 다른 두 측정값 간의 큰 차이는 트리가 최소 제곱 오차 또는 최소 절대 편차가 있는 노드를 분할하는 선택에 더 민감하다는 것을 나타낼 수 있습니다.
검증 기술을 사용하는 경우 Minitab은 학습 데이터와 검정 데이터에 대한 별도의 통계를 계산합니다. 통계를 비교하여 학습 데이터와 새 데이터에 대한 트리의 상대적 성능을 검사할 수 있습니다. 검정 통계는 일반적으로 트리가 새 데이터에 대해 수행하는 방법을 더 잘 측정합니다.
가능한 패턴은 잔차의 작은 비율이 데이터에 있는 오차의 상당 부분을 차지한다는 것입니다. 예를 들어 다음 표에서 데이터 세트의 총 크기는 약 4500입니다. MSE 관점에서 이는 데이터의 1%가 약 12%의 오차를 차지한다는 것을 나타냅니다. 이러한 경우 트리에 대부분의 오차를 기여하는 45개 사례는 트리를 개선할 수 있는 가장 자연스러운 기회를 나타낼 수 있습니다. 이러한 사례에서 적합도를 개선할 수 있는 방법을 찾으면 트리의 전반적인 성능이 상대적으로 크게 증가합니다.
이 조건은 최대 오차가 있는 사례가 없는 트리의 노드에 대한 신뢰도를 높일 수 있음을 나타낼 수도 있습니다. 대부분의 오차는 소수의 사례에서 비롯되므로 다른 사례에 대한 적합도가 상대적으로 더 정확합니다.