CART® 분류를 사용한 트리 생성의 예

연구원 팀은 심장병에 영향을 미치는 요인에 관하여 상세한 정보를 수집하고 게시합니다. 변수는 나이, 성별, 콜레스테롤 수치, 최대 심장 박동 등을 포함합니다. 이 예제는 심장병에 대한 자세한 정보를 제공하는 공개 데이터 세트를 기반으로 합니다. 원래 데이터는 archive.ics.uci.edu에서 볼 수 있습니다.

연구원은 환자가 심장병이 있는지 여부를 표시하기 위해 중요한 예측 변수를 식별하는 분류 트리를 만들고 싶습니다.

  1. 표본 데이터를 엽니다. 심장질환바이너리.MTW
  2. 통계분석 > 예측 분석 > CART® 분류을 선택합니다.
  3. 드롭다운 목록에서 이항 반응을 선택합니다.
  4. 반응에서 심장 병를 입력합니다.
  5. 반응 사건에서 를 선택하여 심장병이 환자에서 확인되었다는 것을 나타냅니다.
  6. 계량형 예측 변수연령, 나머지 혈압, 콜레스테롤, 최대 심박수,올드 피크을 입력합니다.
  7. 범주형 예측 변수섹스, 흉통 유형, 단식 혈당, 레스트 심전도, 운동 협 심 증, 경사, 주요 선박, 을 입력합니다.
  8. 그래을 클릭합니다.

결과 해석

기본적으로 Minitab은 오분류 비용을 최소화하는 트리의 1개 표준 오차 내에서 오분류 비용이 있는 가장 작은 트리를 표시합니다. 이 트리에는 4개의 터미널 노드가 있습니다.

연구원은 트리를 검사하기 전에 교차 검증의 오분류 비용과 터미널 노드 수를 보여주는 그림을 살펴봅니다. 이 그림에서는 오분류 비용이 감소하는 패턴이 4-노드 트리 후에도 계속됩니다. 이와 같은 경우 분석가는 오분류 비용이 낮은 다른 간단한 트리를 탐색하기로 결정합니다.

대립 트리 선택

  1. 출력에서 다른 트리 선택을 클릭합니다.
  2. 그림에서 오분류 비용이 가장 적고 최량 ROC 값이 있는 7-노드 트리를 선택합니다.
  3. 트리 만들기을 클릭합니다.

결과 해석

수형도에서 파란색 항목은 사건 수준에 대한 것입니다. 빨간색 항목은 비사건 수준입니다. 이 출력에서 사건 수준은 "예"이며 누군가가 심장병을 앓고 있음을 나타냅니다. 비사건 수준은 "아니요"이며 누군가가 심장병이 없음을 나타냅니다.

루트 노드에는 139건의 예 사건과 164건의 아니요 사건이 있습니다. 루트 노드는 변수 THAL을 사용하여 분할됩니다. THAL = 정상인 경우 왼쪽 노드(노드 2)로 이동합니다. THAL = 고정 또는 되돌릴 수 있는 경우 오른쪽 노드(노드 5)로 이동합니다.
  • 노드 2: THAL이 정상이었을 때 167건이 있습니다. 167건 중 38건인 22.8%가 '예', 129건인 77.2%가 '아니요'입니다.
  • 노드 5: THAL이 고정 또는 되돌릴 수 있는 경우는 136건입니다. 136건 중 101건인 74.3%는 '예', 35건인 25.7%가 '아니요'입니다.

왼쪽 자식 노드와 오른쪽 자식 노드 모두에 대한 다음 분할은 통증이 1, 2, 3 또는 4로 평가되는 흉통 유형입니다.

다른 노드를 탐색하여 가장 흥미로운 변수를 확인합니다. 대부분 파란색인 노드는 사건 수준의 강한 비율을 나타냅니다. 대부분 빨간색인 노드는 비사건 수준의 강한 비율을 나타냅니다.

수형도는 전체 데이터 세트 또는 학습 데이터 세트를 사용합니다. 트리 보기를 상세 보기와 노드 분할 보기 간에 전환할 수 있습니다.

이 트리의 분류 비용은 약 0.391입니다.

가장 중요한 예측 변수는 흉통 유형입니다. 상위 예측 변수인 흉통 유형의 기여도가 100%인 경우 다음으로 중요한 변수인 주요 출혈은 86.5%의 기여도를 가집니다. 이것은 주요 출혈이 이 분류 트리의 흉통 유형만큼 중요한 86.5%임을 의미합니다.

검정 데이터의 ROC 곡선 아래 면적은 0.8200이며, 대부분의 용도에 적절한 분류 성능을 나타냅니다.

7 노드 CART® 분류: 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 단식 혈당, 운동 협 심 증, 레스트 심전도, 경사, 탈, 흉통 유형, 주요 선박

방법 사전 확률 모든 등급에 대해 같음 노드 분할 지니 최적 트리 최소 오분류 비용 모형 검증 10-접기 교차 검증 사용된 행 303
이항 반응 정보 변수 등급 카운트 % 심장 병 예 (사건) 139 45.9 아니요 164 54.1 모두 303 100.0
모형 요약 전체 예측 변수 13 중요 예측 변수 13 단말 노드 수 7 최소 단말 노드 크기 5 통계량 교육 검정 평균 음수 로그 우도 0.3971 0.5094 ROC 곡선 아래 면적 0.8861 0.8200 95% CI (0.5590, 1) (0.7702, 0.8697) 향상도 1.9376 1.8165 오분류 비용 0.2924 0.3909
오차 행렬 예측된 등급(교육) 예측된 등급(검정) 실제 등급 카운트 예 아니요 정답률(%) 예 아니요 정답률(%) 예 (사건) 139 117 22 84.2 105 34 75.5 아니요 164 22 142 86.6 24 140 85.4 모두 303 139 164 85.5 129 174 80.9 통계량 교육(%) 검정(%) 진양성률(민감도 또는 검정력) 84.2 75.5 가양성률(유형 I 오차) 13.4 14.6 가음성률(유형 II 오차) 15.8 24.5 진음성률(특이성) 86.6 85.4
오분류 입력 오분류 비용 예측된 등급 실제 등급 예 아니요 예 1.00 아니요 1.00 교육 검정 실제 등급 카운트 오분류됨 오차율(%) 비용 오분류됨 오차율(%) 비용 예 (사건) 139 22 15.8 0.1583 34 24.5 0.2446 아니요 164 22 13.4 0.1341 24 14.6 0.1463 모두 303 44 14.5 0.1462 58 19.1 0.1955
이 사이트를 사용하면 분석 및 사용자 개인 컨텐츠에 대한 쿠키 사용에 동의하는 것입니다.  당사의 개인정보 보호정책을 확인하십시오