CART® 회귀 분석에 대한 최대 잔차로 인한 오차 통계의 백분율

오차 통계의 백분율을 사용하여 트리의 오류 양을 최악의 적합에서 검사합니다. 분석에서 검증 기술을 사용하는 경우 학습 및 검정 데이터에 대한 트리의 통계를 비교할 수도 있습니다.

표의 각 행은 잔차의 지정된 백분율에 대한 오차 통계를 표시합니다. 최대 잔차에서 제공되는 평균 제곱 오차(MSE)의 백분율은 일반적으로 다른 두 통계의 백분율보다 높습니다. MSE는 계산에서 오차 제곱을 사용하므로 가장 극단적인 관측값은 일반적으로 통계에 가장 큰 영향을 미칩니다. MSE에 대한 오차 백분율과 다른 두 측정값 간의 큰 차이는 트리가 최소 제곱 오차 또는 최소 절대 편차가 있는 노드를 분할하는 선택에 더 민감하다는 것을 나타낼 수 있습니다.

검증 기술을 사용하는 경우 Minitab은 학습 데이터와 검정 데이터에 대한 별도의 통계를 계산합니다. 통계를 비교하여 학습 데이터와 새 데이터에 대한 트리의 상대적 성능을 검사할 수 있습니다. 검정 통계는 일반적으로 트리가 새 데이터에 대해 수행하는 방법을 더 잘 측정합니다.

가능한 패턴은 잔차의 작은 비율이 데이터에 있는 오차의 상당 부분을 차지한다는 것입니다. 예를 들어 다음 표에서 데이터 세트의 총 크기는 약 4500입니다. MSE 관점에서 이는 데이터의 1%가 약 12%의 오차를 차지한다는 것을 나타냅니다. 이러한 경우 트리에 대부분의 오차를 기여하는 45개 사례는 트리를 개선할 수 있는 가장 자연스러운 기회를 나타낼 수 있습니다. 이러한 사례에서 적합도를 개선할 수 있는 방법을 찾으면 트리의 전반적인 성능이 상대적으로 크게 증가합니다.

이 조건은 최대 오차가 있는 사례가 없는 트리의 노드에 대한 신뢰도를 높일 수 있음을 나타낼 수도 있습니다. 대부분의 오차는 소수의 사례에서 비롯되므로 다른 사례에 대한 적합도가 상대적으로 더 정확합니다.

17 노드 CART® 회귀: 서비스 기간 대 입학 연령, 첫 번째 약물 사용의 나이, 이전 30 일 체포, 서비스를 기다리는 일, 이전 치료 에피소드, 교육 연도, 다른 자극제 사용, 계획된 약물 치료, 정신 질환, 임신, 성별, 베테랑, 알코올 사용, 코카인 사용, 마리화나 사용, 헤로인 사용, 기타 아편 사용, PCP 사용, 메타돈 사용, 다른 환각제 사용, 메담페타민 사용, 기타 암페타민 사용, 벤조디아제핀 사용, 기타 진정제 사용, 바르비투아테 사용, 기타 진정 제 사용, 흡입사용, 비처방약 사용, 기타 약물 사용, 정맥 내 약물 사용, 생활 준비, 약물 남용의 빈도, 건강 보험, 결혼 여부, 민족성, 소득원, 하위의 기본 섭취 경로, 자조 출석, 지불 원천, 레이스, 고용 상태, 추천 소스, 남용의 1 차적인 물질, DSM 진단

최대 잔차로 인한 오차 통계량의 퍼센트 교육 검정 최대 잔차의 비율(%) 카운트 % MSE % MAD % MAPE % MSE % MAD % MAPE 1.0 45 12.0662 4.4286 17.0993 11.7595 4.3601 16.9809 2.0 90 19.6105 7.9590 27.7611 19.0639 7.8242 28.0537 2.5 112 22.6611 9.5292 31.4313 22.0671 9.3775 31.8497 3.0 134 25.4267 11.0245 35.1014 24.7926 10.8576 35.4683 4.0 179 30.3473 13.8759 42.6086 29.7103 13.7003 42.7628 5.0 223 34.5866 16.4938 49.9489 33.9523 16.3116 49.8103 7.5 334 43.2672 22.4419 63.2850 43.0319 22.3750 63.0140 10.0 446 50.4797 27.8875 70.7239 50.3414 27.8406 70.3832 15.0 668 61.1200 37.1919 78.5216 61.0161 37.1327 78.1782 20.0 891 69.2319 45.3354 82.5577 69.0602 45.2227 82.2440