TreeNet® 분류와 함께 모형 적합의 예

참고

이 명령은 에서 사용할 수 있습니다예측 분석 모듈. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

연구원 팀은 심장병에 영향을 미치는 요인에 관하여 상세한 정보를 수집하고 게시합니다. 변수는 나이, 성별, 콜레스테롤 수치, 최대 심장 박동 등을 포함합니다. 이 예제는 심장병에 대한 자세한 정보를 제공하는 공개 데이터 세트를 기반으로 합니다. 원래 데이터는 archive.ics.uci.edu에서 볼 수 있습니다.

중요한 예측 변수를 식별하기 위해 초기 탐색 CART® 분류 후 연구원은 동일한 데이터 세트에서 더 집약적인 모델을 만들기 위해 와 TreeNet® 분류 를 모두 Random Forests® 분류 사용합니다. 연구원은 모형 요약 표와 결과의 ROC 그림을 비교하여 어떤 모형이 더 나은 예측 결과를 제공하는지 평가합니다. 다른 분석의 결과는 CART® 분류 예제Random Forests® 분류 예제에서 확인하십시오.

  1. 표본 데이터 심장질환바이너리.MTW를 엽니다.
  2. 예측 분석 모듈 > TreeNet® 분류 > 모형 적합을 선택합니다.
  3. 드롭다운 목록에서 이항 반응을 선택합니다.
  4. 반응심장 병를 입력합니다.
  5. 반응 사건에서 환자에게 심장병이 확인되었음을 나타내려면 를 선택합니다.
  6. 계량형 예측 변수 에는 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크 를 입력합니다..
  7. 범주형 예측 변수에는 섹스, 흉통 유형, 단식 혈당, 레스트 심전도, 운동 협 심 증, 경사, 주요 선박, 를 입력합니다.
  8. 확인을 클릭합니다.

결과 해석

이 분석을 위해 Minitab은 300개의 트리를 키우고 최적의 트리 수는 298개입니다. 최적의 트리 수가 모형이 키우는 최대 트리 수에 근접해지기 때문에 연구원들은 더 많은 트리로 분석을 반복합니다.

모형 요약

전체 예측 변수13
중요 예측 변수13
성장한 트리 수300
최적의 트리 수298
통계량교육검정
평균 음수 로그 우도0.25560.3881
ROC 곡선 아래 면적0.97960.9089
        95% CI(0.9664, 0.9929)(0.8759, 0.9419)
향상도2.17992.1087
오분류 비율0.08910.1617

500개의 트리가 있는 예

  1. 결과에서 하이퍼파라미터 튜닝 를 선택합니다.
  2. 트리 수500를 입력합니다.
  3. 결과 표시을 클릭합니다.

결과 해석

이 분석을 위해 500개의 트리가 자라고 최적의 트리 수는 351개였습니다. 최상의 모형은 학습 속도 0.01을 사용하고, 0.5의 하위 표본 부분을 사용하며, 6을 최대 단말 노드 수로 사용합니다.

방법

최적 트리 수 선택 기준최대 로그 우도
모형 검증5-접기 교차 검증
학습률0.01
하위 표본 선택 방법완전 랜덤
    하위 표본 부분0.5
트리당 최대 터미널 노드 수6
최소 단말 노드 크기3
노드 분할을 위해 선택된 예측 변수 수총 예측 변수 수 = 13
사용된 행303

이항 반응 정보

변수등급카운트%
심장 병예 (사건)13945.87
  아니요16454.13
  모두303100.00
하이퍼파라미터 튜닝을 통한 TreeNet® 분류: 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 흉통 유형, 단식 혈당, 레스트 심전도, 운동 협 심 증, 경사, 주요 선박, 탈

방법

최적 트리 수 선택 기준최대 로그 우도
모형 검증5-접기 교차 검증
학습률0.001, 0.01, 0.1
하위 표본 부분0.5, 0.7
트리당 최대 터미널 노드 수6
최소 단말 노드 크기3
노드 분할을 위해 선택된 예측 변수 수총 예측 변수 수 = 13
사용된 행303

이항 반응 정보

변수등급카운트%
심장 병예 (사건)13945.87
  아니요16454.13
  모두303100.00

하이퍼파라미터 최적화

검정
모형최적의 트리 수평균 음수 로그 우도ROC 곡선 아래 면적분류 율 잘못학습률하위 표본 부분최대 단말 노드
15000.5429020.9029560.1717490.0010.56
2*3510.3865360.9089200.1750270.0100.56
3330.3965550.9007820.1616940.1000.56
45000.5432920.8941780.1781420.0010.76
53740.3896070.9066200.1650820.0100.76
6390.3933820.9013990.1749730.1000.76
* 최적의 모형에는 최소 평균 음수 로그 우도가 있습니다. 최적의 모형 출력이 뒤에 나옵니다.

평균 – 로그우도 대 트리 수 그림은 성장한 트리 수에 대한 전체 곡선을 보여줍니다. 검정 데이터에 대한 최적의 값은 트리 수가 351인 경우 0.3865입니다.

모형 요약

전체 예측 변수13
중요 예측 변수13
성장한 트리 수500
최적의 트리 수351
통계량교육검정
평균 음수 로그 우도0.23410.3865
ROC 곡선 아래 면적0.98250.9089
        95% CI(0.9706, 0.9945)(0.8757, 0.9421)
향상도2.17992.1087
오분류 비율0.07590.1750

모형 요약

전체 예측 변수13
중요 예측 변수13
통계량OOB
평균 음수 로그 우도0.4004
ROC 곡선 아래 면적0.9028
        95% CI(0.8693, 0.9363)
향상도2.1079
오분류 비율0.1848

모형 요약 표는 트리 수가 351일 때 평균 음수 로그 우도가 학습 데이터에 대해 약 0.23이며 검정 데이터에 대해 약 0.39임을 보여줍니다. 이러한 통계는 Minitab Random Forests®에서 만드는 모형과 유사한 모형을 나타냅니다. 오분류 비율도 비슷합니다.

상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 Thal입니다. 상위 예측 변수인 Thal의 기여도가 100%인 경우 다음으로 중요한 변수인 주요 출혈은 97.8%의 기여도를 가집니다. 이것은 주요 출혈이 이 분류 모형의 Thal만큼 중요한 97.8%임을 의미합니다.

오차 행렬



예측된 등급(교육)예측된 등급(검정)
실제 등급카운트아니요정답률(%)아니요정답률(%)
예 (사건)1391241589.211102979.14
아니요164815695.122414085.37
모두30313217192.4113416982.51
행의 사건 확률이 0.5을 초과하는 경우 사건 등급에 행을 할당합니다.
     
통계량교육(%)검정(%)
진양성률(민감도 또는 검정력)89.2179.14
가양성률(유형 I 오차)4.8814.63
가음성률(유형 II 오차)10.7920.86
진음성률(특이성)95.1285.37

오차 행렬은 모형이 등급을 올바르게 구분하는 방법을 보여줍니다. 이 예제에서 사건이 올바르게 예측될 확률은 79.14%입니다. 비사건이 올바르게 예측될 확률은 85.37%입니다.

오분류



교육검정
실제 등급카운트오분류됨오차율(%)오분류됨오차율(%)
예 (사건)1391510.792920.86
아니요16484.882414.63
모두303237.595317.49
행의 사건 확률이 0.5을 초과하는 경우 사건 등급에 행을 할당합니다.

오분류 비율은 모형이 새 관측치를 정확하게 예측할지 여부를 나타내는 데 도움이 됩니다. 사건 예측의 경우 검정 오분류 오차는 20.86%입니다. 비사건 예측의 경우 오분류 오류는 14.63%이며 전체적으로 오분류 오차는 17.49%입니다.

351개의 트리 수가 351일 때 ROC 곡선 아래의 면적은 학습 데이터에 대해 약 0.98이며 검정 데이터에 대해 약 0.91입니다. 이것은 모델에 비해 좋은 개선을 CART® 분류 보여줍니다. Random Forests® 분류 모델의 테스트 AUROC는 0.9028이므로 이 두 가지 방법은 비슷한 결과를 제공합니다.

이 예제에서 이익 차트는 기준선 위로 급격히 증가한 다음 평평해집니다. 이 경우 데이터의 약 40%가 진양성의 약 80%를 차지합니다. 이 차이는 모형을 사용하여 산출된 추가 이득입니다.

이 예제에서는 향상도 차트가 기준선 위로 크게 증가하고 점차 떨어집니다.

부분 종속성도를 사용하면 중요한 변수 또는 변수 쌍이 적합 반응 값에 어떤 영향을 미치는지 파악할 수 있습니다. 적합된 반응 값은 1/2 로그 척도에 있습니다. 부분 종속성 플롯은 반응과 변수 간의 관계가 선형, 단조로움 또는 더 복잡한지 여부를 보여줍니다.

예를 들어, 흉통 유형의 부분 종속성 플롯에서 1/2 로그 승산비는 달라지고 급격하게 증가합니다. 흉통 유형이 4인 경우 심장병 발생률의 1/2 로그 승산비는 약 -0.04에서 0.03으로 증가합니다. 또는 두 개의 예측 변수 그림 를 선택하여 하나의 예측 변수 그림 다른 변수에 대한 그림을 생성합니다.