연구원 팀은 심장병에 영향을 미치는 요인에 관하여 상세한 정보를 수집하고 게시합니다. 변수는 나이, 성별, 콜레스테롤 수치, 최대 심장 박동 등을 포함합니다. 이 예제는 심장병에 대한 자세한 정보를 제공하는 공개 데이터 세트를 기반으로 합니다. 원래 데이터는 archive.ics.uci.edu에서 볼 수 있습니다.

연구원은 환자가 심장병이 있는지 여부를 표시하기 위해 중요한 예측 변수를 식별하는 분류 트리를 만들고 싶습니다.

  1. 표본 데이터 심장질환바이너리.MTW를 엽니다.
  2. 을 선택합니다 예측 분석 모듈 > CART® 분류.
  3. 드롭다운 목록에서 이항 반응을 선택합니다.
  4. 반응심장 병를 입력합니다.
  5. 반응 사건에서 환자에게 심장병이 확인되었음을 나타내려면 를 선택합니다.
  6. 계량형 예측 변수연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크 를 입력합니다..
  7. 범주형 예측 변수섹스, 흉통 유형, 단식 혈당, 레스트 심전도, 운동 협 심 증, 경사, 주요 선박, 를 입력합니다..
  8. 확인을 클릭합니다.

결과 해석

기본적으로 Minitab은 오분류 비용을 최소화하는 트리의 1개 표준 오차 내에서 오분류 비용이 있는 가장 작은 트리를 표시합니다. 이 트리에는 4개의 터미널 노드가 있습니다.

연구원은 트리를 검사하기 전에 교차 검증의 오분류 비용과 터미널 노드 수를 보여주는 그림을 살펴봅니다. 이 그림에서는 오분류 비용이 감소하는 패턴이 4-노드 트리 후에도 계속됩니다. 이와 같은 경우 분석가는 오분류 비용이 낮은 다른 간단한 트리를 탐색하기로 결정합니다.

대립 트리 선택

  1. 출력에서 대립 트리 선택을 클릭합니다.
  2. 그림에서 오분류 비용이 가장 적고 최량 ROC 값이 있는 7-노드 트리를 선택합니다.
  3. 트리 만들기을 클릭합니다.

결과 해석

수형도에서 파란색 항목은 사건 수준에 대한 것입니다. 빨간색 항목은 비사건 수준입니다. 이 출력에서 사건 수준은 "예"이며 누군가가 심장병을 앓고 있음을 나타냅니다. 비사건 수준은 "아니요"이며 누군가가 심장병이 없음을 나타냅니다.

루트 노드에는 139건의 예 사건과 164건의 아니요 사건이 있습니다. 루트 노드는 변수 THAL을 사용하여 분할됩니다. THAL = 정상인 경우 왼쪽 노드(노드 2)로 이동합니다. THAL = 고정 또는 되돌릴 수 있는 경우 오른쪽 노드(노드 5)로 이동합니다.
  • 노드 2: THAL이 정상이었을 때 167건이 있습니다. 167건 중 38건인 22.8%가 '예', 129건인 77.2%가 '아니요'입니다.
  • 노드 5: THAL이 고정 또는 되돌릴 수 있는 경우는 136건입니다. 136건 중 101건인 74.3%는 '예', 35건인 25.7%가 '아니요'입니다.

왼쪽 자식 노드와 오른쪽 자식 노드 모두에 대한 다음 분할은 통증이 1, 2, 3 또는 4로 평가되는 흉통 유형입니다.

다른 노드를 탐색하여 가장 흥미로운 변수를 확인합니다. 대부분 파란색인 노드는 사건 수준의 강한 비율을 나타냅니다. 대부분 빨간색인 노드는 비사건 수준의 강한 비율을 나타냅니다.

수형도는 전체 데이터 세트 또는 학습 데이터 세트를 사용합니다. 트리 보기를 상세 보기와 노드 분할 보기 간에 전환할 수 있습니다.

이 트리의 분류 비용은 약 0.391입니다.

가장 중요한 예측 변수는 흉통 유형입니다. 상위 예측 변수인 흉통 유형의 기여도가 100%이면 다음으로 중요한 변수인 주요 혈관의 기여도는 86.5%입니다. 이는 주요 혈관이 이 분류 트리에서 흉통 유형보다 86.5% 중요하다는 것을 의미합니다.

검정 데이터의 ROC 곡선 아래 면적은 0.8200이며, 많은 용도에 적절한 분류 성능을 나타냅니다. 더 높은 예측 정확도가 필요한 응용 프로그램의 경우 모델 또는 모델을 사용하여 TreeNet® 분류 성능을 향상시킬 수 있습니다 Random Forests® 분류 .

이 예제에서 이익 차트는 기준선 위로 급격히 증가한 다음 평평해집니다. 이 경우 데이터의 약 40%가 진양성의 약 70%를 차지합니다.

이 예제에서 향상도 차트는 기준선 위로 증가하여 점차 떨어짐을 보여줍니다.

7 노드 CART® 분류: 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 단식 혈당, 운동 협 심 증, 레스트 심전도, 경사, 탈, 흉통 유형, 주요 선박

방법

사전 확률모든 등급에 대해 같음
노드 분할지니
최적 트리최소 오분류 비용
모형 검증10-접기 교차 검증
사용된 행303

이항 반응 정보

변수등급카운트%
심장 병예 (사건)13945.87
  아니요16454.13
  모두303100.00

모형 요약

전체 예측 변수13
중요 예측 변수13
단말 노드 수7
최소 단말 노드 크기5
통계량교육검정
평균 음수 로그 우도0.39710.5094
ROC 곡선 아래 면적0.88610.8200
        95% CI(0.5590, 1)(0.7702, 0.8697)
향상도1.93761.8165
오분류 비용0.29240.3909

오차 행렬



예측된 등급(교육)예측된 등급(검정)
실제 등급카운트아니요정답률(%)아니요정답률(%)
예 (사건)1391172284.21053475.5
아니요1642214286.62414085.4
모두30313916485.512917480.9
통계량교육(%)검정(%)
진양성률(민감도 또는 검정력)84.275.5
가양성률(유형 I 오차)13.414.6
가음성률(유형 II 오차)15.824.5
진음성률(특이성)86.685.4

오분류

입력 오분류 비용예측된 등급
실제 등급아니요
  1.00
아니요1.00 


교육검정
실제 등급카운트오분류됨오차율(%)비용오분류됨오차율(%)비용
예 (사건)1392215.80.15833424.50.2446
아니요1642213.40.13412414.60.1463
모두3034414.50.14625819.10.1955