Random Forests® 분류 예제

참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

연구원 팀은 심장병에 영향을 미치는 요인에 관하여 상세한 정보를 수집하고 게시합니다. 변수는 나이, 성별, 콜레스테롤 수치, 최대 심장 박동 등을 포함합니다. 이 예제는 심장병에 대한 자세한 정보를 제공하는 공개 데이터 집합을 기반으로 합니다. 원래 데이터는 archive.ics.uci.edu에서 볼 수 있습니다.

중요한 예측 변수를 식별하기 위해 CART® 분류을 사용한 초기 탐색 후 연구원은 TreeNet® 분류Random Forests® 분류를 모두 사용하여 동일한 데이터 집합에서 보다 집중적인 모형을 만듭니다. 연구원은 모형 요약 표와 결과의 ROC 그림을 비교하여 어떤 모형이 더 나은 예측 결과를 제공하는지 평가합니다. 다른 분석의 결과는 CART® 분류 예제TreeNet® 분류와 함께 모형 적합의 예에서 확인하십시오.

  1. 표본 데이터 심장질환바이너리.MTW를 엽니다.
  2. 예측 분석 모듈 > Random Forests® 분류을 선택합니다.
  3. 드롭다운 리스트에서 이항 반응을 선택합니다.
  4. 반응에서 심장 병를 입력합니다.
  5. 반응 사건에서 를 선택하여 심장병이 환자에서 확인되었다는 것을 나타냅니다.
  6. 계량형 예측 변수연령, 나머지 혈압, 콜레스테롤, 최대 심박수,올드 피크을 입력합니다.
  7. 범주형 예측 변수섹스, 흉통 유형, 단식 혈당, 레스트 심전도, 운동 협 심 증, 경사, 주요 선박, 을 입력합니다.
  8. 확인을 클릭합니다.

결과 해석

이 분석의 경우 관측치 수는 303입니다. 300개의 부트스트랩 표본은 각각 303개의 관측값을 사용하여 트리를 만듭니다. 데이터에는 비사건 및 사건의 좋은 분할이 포함됩니다.

방법

모형 검증OOB 데이터로 검증
부트스트랩 표본 수300
    표본 크기학습 데이터 크기 303과 동일
노드 분할을 위해 선택된 예측 변수 수총 예측 변수 수의 제곱근 = 3
최소 내부 노드 크기2
사용된 행303

이항 반응 정보

변수등급카운트%
심장 병예 (사건)13945.87
  아니요16454.13
  모두303100.00

오분류 비율 대 트리 수 그림은 성장한 트리 수에 대한 전체 곡선을 보여줍니다. 오분류 비율은 약 0.18입니다.

모형 요약

전체 예측 변수13
중요 예측 변수13
통계량OOB
평균 음수 로그 우도0.4004
ROC 곡선 아래 면적0.9028
        95% CI(0.8693, 0.9363)
향상도2.1079
오분류 비율0.1848

모형 요약

전체 예측 변수13
중요 예측 변수13
성장한 트리 수500
최적의 트리 수351
통계량교육검정
평균 음수 로그 우도0.23410.3865
ROC 곡선 아래 면적0.98250.9089
        95% CI(0.9706, 0.9945)(0.8757, 0.9421)
향상도2.17992.1087
오분류 비율0.07590.1750

모형 요약 표는 평균 음수 로그 우도가 0.3994임을 보여줍니다. 이러한 통계는 500개 트리를 키울 때 Minitab TreeNet®에서 만드는 모형과 유사한 모형을 나타냅니다. 오분류 비율도 비슷합니다.

상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 주요 출혈입니다. 상위 예측 변수인 주요 출혈의 기여도가 100%인 경우 다음으로 중요한 변수인 Thal의 기여도는 89.7%입니다. 이것은 Thal이 이 분류 모형의 주요 출혈만큼 중요한 89.7%임을 의미합니다.

오차 행렬


예측 등급(OOB)
실제 등급카운트아니요정답률(%)
예 (사건)1391093078.42
아니요1642613884.15
모두30313516881.52
통계량OOB(%)
진양성률(민감도 또는 검정력)78.42
가양성률(유형 I 오차)15.85
가음성률(유형 II 오차)21.58
진음성률(특이성)84.15

오차 행렬은 모형이 등급을 올바르게 구분하는 방법을 보여줍니다. 이 예제에서 사건이 올바르게 예측될 확률은 78.42%입니다. 비사건이 올바르게 예측될 확률은 84.15%입니다.

오분류


OOB
실제 등급카운트오분류됨오차율(%)
예 (사건)1393021.58
아니요1642615.85
모두3035618.48

오분류 비율은 모형이 새 관측치를 정확하게 예측할지 여부를 나타내는 데 도움이 됩니다. 사건 예측의 경우 오분류 오차는 21.58%입니다. 비사건 예측의 경우 오분류 오차는 15.85%이며 전체적으로 오분류 오차는 18.48%입니다.

이러한 데이터에 대한 ROC 곡선 아래 면적은 약 0.9028이며, CART® 분류 모형에 비해 약간의 개선이 표시됩니다. TreeNet® 분류모형에는 0.9089의 검정 AUROC가 있으므로 이러한 2가지 방법이 비슷한 결과를 제공합니다.

이 예제에서 이익 차트는 기준선 위로 급격히 증가한 다음 평평해집니다. 이 경우 데이터의 약 40%가 진양성의 약 78%를 차지합니다. 이 차이는 모형을 사용하여 산출된 추가 이득입니다.

이 예제에서는 향상도 차트가 기준선 위로 크게 증가하고 점차 떨어집니다.