오분류 비용 대 터미널 노드 수 그림은 최적의 트리를 생성하는 시퀀스의 각 트리에 대한 오분류 비용을 표시합니다. 기본적으로 초기 최적 트리는 오분류 비용을 최소화하는 트리의 표준 오차 하나 내에서 오분류 비용이 있는 가장 작은 트리입니다. 분석에서 교차 검증 또는 검정 데이터 세트를 사용하는 경우 오분류 비용이 검증 표본에서 나온 것입니다. 검증 표본에 대한 오분류 비용은 일반적으로 트리가 커질수록 평준화되고 결국 증가합니다.
전체 예측 변수 | 13 |
---|---|
중요 예측 변수 | 13 |
단말 노드 수 | 4 |
최소 단말 노드 크기 | 27 |
통계량 | 교육 | 검정 |
---|---|---|
평균 음수 로그 우도 | 0.4772 | 0.5164 |
ROC 곡선 아래 면적 | 0.8192 | 0.8001 |
95% CI | (0.3438, 1) | (0.7482, 0.8520) |
향상도 | 1.6189 | 1.8849 |
오분류 비용 | 0.3856 | 0.4149 |
노드가 4개인 시퀀스의 트리는 0.41에 가까운 오분류 비용을 가집니다. 오분류 비용이 감소하는 패턴이 4-노드 트리 후에도 계속됩니다. 이와 같은 경우 분석가는 오분류 비용이 낮은 다른 간단한 트리를 탐색하기로 결정합니다.
전체 예측 변수 | 13 |
---|---|
중요 예측 변수 | 13 |
단말 노드 수 | 7 |
최소 단말 노드 크기 | 5 |
통계량 | 교육 | 검정 |
---|---|---|
평균 음수 로그 우도 | 0.3971 | 0.5094 |
ROC 곡선 아래 면적 | 0.8861 | 0.8200 |
95% CI | (0.5590, 1) | (0.7702, 0.8697) |
향상도 | 1.9376 | 1.8165 |
오분류 비용 | 0.2924 | 0.3909 |
상대 교차 검증된 오분류 비용을 최소화하는 분류 트리에는 7개의 터미널 노드와 약 0.39의 상대 오분류 비용이 있습니다. ROC 곡선 아래 면적과 같은 기타 통계에서는 7-노드 트리가 4-노드 트리보다 더 잘 수행되는지도 확인합니다. 7-노드 트리에는 해석하기 쉬운 노드가 거의 없기 때문에 분석가는 7-노드 트리를 사용하여 중요한 변수를 연구하고 예측을 하기로 결정합니다.
트리를 선택한 후 수형도에서 가장 순수한 터미널 노드를 조사합니다. 파란색은 사건 수준을 나타내고 빨간색은 비사건 수준을 나타냅니다.
수형도를 마우스 오른쪽 단추로 클릭하여 트리의 노드 분할 보기를 표시할 수 있습니다. 이 보기는 큰 트리가 있고 노드를 분할하는 변수만 보려는 경우에 유용합니다.
터미널 노드를 추가 그룹으로 분할할 수 없을 때까지 노드가 계속 분할됩니다. 대부분 파란색인 노드는 사건 수준의 강한 비율을 나타냅니다. 대부분 빨간색인 노드는 비사건 수준의 강한 비율을 나타냅니다.
왼쪽 자식 노드와 오른쪽 자식 노드 모두에 대한 다음 분할은 통증이 1, 2, 3 또는 4로 평가되는 흉통 유형입니다. 노드 2는 터미널 노드 1의 부모 노드이고 노드 5는 터미널 노드 7의 부모 노드입니다.
상대 변수 중요도 차트를 사용하여 트리에 가장 중요한 변수인 예측 변수를 결정합니다.
중요한 변수는 트리의 기본 또는 대리 분할입니다. 개선 점수가 가장 높은 변수가 가장 중요한 변수로 설정되고 다른 변수의 순위가 적절하게 매겨집니다. 상대 변수 중요도는 해석의 용이성을 위해 중요도 값을 표준화합니다. 상대적 중요도는 가장 중요한 예측 변수에 대한 백분율 개선으로 정의됩니다.
상대 변수 중요도 값의 범위는 0%에서 100%입니다. 가장 중요한 변수는 항상 100%의 상대적 중요도를 가집니다. 변수가 트리에 없는 경우 해당 변수는 중요하지 않습니다.
가장 정확한 트리는 오분류 비용이 가장 낮은 트리입니다. 때로는 오분류 비용이 약간 더 높은 간단한 트리도 작동합니다. 오분류 비용 대 터미널 노드 플롯을 사용하여 대체 트리를 식별할 수 있습니다.
수신자 검사 특성(ROC) 곡선은 트리가 데이터를 얼마나 잘 분류하는지 보여줍니다. ROC 곡선은 y축의 진양성률과 x축의 가양성률을 플로팅합니다. 진양성률을 검정력이라고도 합니다. 가양성률을 유형 I 오차라고도 합니다.
분류 트리가 반응 변수에서 범주를 완벽하게 구분할 수 있는 경우 ROC 곡선 아래의 면적은 1이며, 이는 최상의 분류 모형입니다. 또는 분류 트리가 범주를 구분할 수 없고 할당을 완전히 임의로 만드는 경우 ROC 곡선 아래의 면적은 0.5입니다.
검증 기술을 사용하여 트리를 빌드하는 경우 Minitab은 학습 및 검증(검정) 데이터에 대한 트리의 성능 정보를 제공합니다. 곡선이 서로 가까이 있으면 트리가 과도 적합이 아니라고 확신할 수 있습니다. 검정 데이터가 있는 트리의 성능은 트리가 새 데이터를 얼마나 잘 예측할 수 있는지를 나타냅니다.
예측된 등급(교육) | 예측된 등급(검정) | ||||||
---|---|---|---|---|---|---|---|
실제 등급 | 카운트 | 예 | 아니요 | 정답률(%) | 예 | 아니요 | 정답률(%) |
예 (사건) | 139 | 117 | 22 | 84.2 | 105 | 34 | 75.5 |
아니요 | 164 | 22 | 142 | 86.6 | 24 | 140 | 85.4 |
모두 | 303 | 139 | 164 | 85.5 | 129 | 174 | 80.9 |
통계량 | 교육(%) | 검정(%) |
---|---|---|
진양성률(민감도 또는 검정력) | 84.2 | 75.5 |
가양성률(유형 I 오차) | 13.4 | 14.6 |
가음성률(유형 II 오차) | 15.8 | 24.5 |
진음성률(특이성) | 86.6 | 85.4 |
전반적으로 정확도 %는 학습 데이터의 경우 85.5%이고, 검정 데이터의 경우 80.9%입니다.