연구원 팀은 심장병에 영향을 미치는 요인에 관하여 상세한 정보를 수집하고 게시합니다. 변수는 나이, 성별, 콜레스테롤 수치, 최대 심장 박동 등을 포함합니다. 이 예제는 심장병에 대한 자세한 정보를 제공하는 공개 데이터 세트를 기반으로 합니다. 원래 데이터는 archive.ics.uci.edu에서 볼 수 있습니다.
연구원은 환자가 심장병이 있는지 여부를 표시하기 위해 중요한 예측 변수를 식별하는 분류 트리를 만들고 싶습니다.
기본적으로 Minitab은 오분류 비용을 최소화하는 트리의 1개 표준 오차 내에서 오분류 비용이 있는 가장 작은 트리를 표시합니다. 이 트리에는 4개의 터미널 노드가 있습니다.
수형도에서 파란색 항목은 사건 수준에 대한 것입니다. 빨간색 항목은 비사건 수준입니다. 이 출력에서 사건 수준은 "예"이며 누군가가 심장병을 앓고 있음을 나타냅니다. 비사건 수준은 "아니요"이며 누군가가 심장병이 없음을 나타냅니다.
왼쪽 자식 노드와 오른쪽 자식 노드 모두에 대한 다음 분할은 통증이 1, 2, 3 또는 4로 평가되는 흉통 유형입니다.
다른 노드를 탐색하여 가장 흥미로운 변수를 확인합니다. 대부분 파란색인 노드는 사건 수준의 강한 비율을 나타냅니다. 대부분 빨간색인 노드는 비사건 수준의 강한 비율을 나타냅니다.
수형도는 전체 데이터 세트 또는 학습 데이터 세트를 사용합니다. 트리 보기를 상세 보기와 노드 분할 보기 간에 전환할 수 있습니다.
이 트리의 분류 비용은 약 0.391입니다.
가장 중요한 예측 변수는 흉통 유형입니다. 상위 예측 변수인 흉통 유형의 기여도가 100%이면 다음으로 중요한 변수인 주요 혈관의 기여도는 86.5%입니다. 이는 주요 혈관이 이 분류 트리에서 흉통 유형보다 86.5% 중요하다는 것을 의미합니다.
검정 데이터의 ROC 곡선 아래 면적은 0.8200이며, 많은 용도에 적절한 분류 성능을 나타냅니다. 더 높은 예측 정확도가 필요한 응용 프로그램의 경우 모델 또는 모델을 사용하여 TreeNet® 분류 성능을 향상시킬 수 있습니다 Random Forests® 분류 .
이 예제에서 이익 차트는 기준선 위로 급격히 증가한 다음 평평해집니다. 이 경우 데이터의 약 40%가 진양성의 약 70%를 차지합니다.
이 예제에서 향상도 차트는 기준선 위로 증가하여 점차 떨어짐을 보여줍니다.
사전 확률 | 모든 등급에 대해 같음 |
---|---|
노드 분할 | 지니 |
최적 트리 | 최소 오분류 비용 |
모형 검증 | 10-접기 교차 검증 |
사용된 행 | 303 |
변수 | 등급 | 카운트 | % |
---|---|---|---|
심장 병 | 예 (사건) | 139 | 45.87 |
아니요 | 164 | 54.13 | |
모두 | 303 | 100.00 |
전체 예측 변수 | 13 |
---|---|
중요 예측 변수 | 13 |
단말 노드 수 | 7 |
최소 단말 노드 크기 | 5 |
통계량 | 교육 | 검정 |
---|---|---|
평균 음수 로그 우도 | 0.3971 | 0.5094 |
ROC 곡선 아래 면적 | 0.8861 | 0.8200 |
95% CI | (0.5590, 1) | (0.7702, 0.8697) |
향상도 | 1.9376 | 1.8165 |
오분류 비용 | 0.2924 | 0.3909 |
예측된 등급(교육) | 예측된 등급(검정) | ||||||
---|---|---|---|---|---|---|---|
실제 등급 | 카운트 | 예 | 아니요 | 정답률(%) | 예 | 아니요 | 정답률(%) |
예 (사건) | 139 | 117 | 22 | 84.2 | 105 | 34 | 75.5 |
아니요 | 164 | 22 | 142 | 86.6 | 24 | 140 | 85.4 |
모두 | 303 | 139 | 164 | 85.5 | 129 | 174 | 80.9 |
통계량 | 교육(%) | 검정(%) |
---|---|---|
진양성률(민감도 또는 검정력) | 84.2 | 75.5 |
가양성률(유형 I 오차) | 13.4 | 14.6 |
가음성률(유형 II 오차) | 15.8 | 24.5 |
진음성률(특이성) | 86.6 | 85.4 |
입력 오분류 비용 | 예측된 등급 | |
---|---|---|
실제 등급 | 예 | 아니요 |
예 | 1.00 | |
아니요 | 1.00 |
교육 | 검정 | ||||||
---|---|---|---|---|---|---|---|
실제 등급 | 카운트 | 오분류됨 | 오차율(%) | 비용 | 오분류됨 | 오차율(%) | 비용 |
예 (사건) | 139 | 22 | 15.8 | 0.1583 | 34 | 24.5 | 0.2446 |
아니요 | 164 | 22 | 13.4 | 0.1341 | 24 | 14.6 | 0.1463 |
모두 | 303 | 44 | 14.5 | 0.1462 | 58 | 19.1 | 0.1955 |