Random Forests® 분류 예제

참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

연구원 팀은 심장병에 영향을 미치는 요인에 관하여 상세한 정보를 수집하고 게시합니다. 변수는 나이, 성별, 콜레스테롤 수치, 최대 심장 박동 등을 포함합니다. 이 예제는 심장병에 대한 자세한 정보를 제공하는 공개 데이터 집합을 기반으로 합니다. 원래 데이터는 archive.ics.uci.edu에서 볼 수 있습니다.

중요한 예측 변수를 식별하기 위해 CART® 분류을 사용한 초기 탐색 후 연구원은 TreeNet® 분류Random Forests® 분류를 모두 사용하여 동일한 데이터 집합에서 보다 집중적인 모형을 만듭니다. 연구원은 모형 요약 표와 결과의 ROC 그림을 비교하여 어떤 모형이 더 나은 예측 결과를 제공하는지 평가합니다. 다른 분석의 결과는 CART® 분류 예제TreeNet® 분류를 통한 모형 적합의 예제에서 확인하십시오.

  1. 표본 데이터 심장질환바이너리.MTW를 엽니다.
  2. 예측 분석 모듈 > Random Forests® 분류을 선택합니다.
  3. 드롭다운 리스트에서 이항 반응을 선택합니다.
  4. 반응에서 심장 병를 입력합니다.
  5. 반응 사건에서 를 선택하여 심장병이 환자에서 확인되었다는 것을 나타냅니다.
  6. 계량형 예측 변수연령, 나머지 혈압, 콜레스테롤, 최대 심박수,올드 피크을 입력합니다.
  7. 범주형 예측 변수섹스, 흉통 유형, 단식 혈당, 레스트 심전도, 운동 협 심 증, 경사, 주요 선박, 을 입력합니다.
  8. 확인을 클릭합니다.

결과 해석

이 분석의 경우 관측치 수는 303입니다. 300개의 부트스트랩 표본은 각각 303개의 관측값을 사용하여 트리를 만듭니다. 데이터에는 비사건 및 사건의 좋은 분할이 포함됩니다.

Random Forests® 분류: 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 흉통 유형, ...

방법 모형 검증 OOB 데이터로 검증 부트스트랩 표본 수 300 표본 크기 학습 데이터 크기 303과 동일 노드 분할을 위해 선택된 예측 변수 수 총 예측 변수 수의 제곱근 = 3 최소 내부 노드 크기 2 사용된 행 303
이항 반응 정보 변수 등급 카운트 % 심장 병 예 (사건) 139 45.87 아니요 164 54.13 모두 303 100.00

오분류 비율 대 트리 수 그림은 성장한 트리 수에 대한 전체 곡선을 보여줍니다. 오분류 비율은 약 0.18입니다.

Random Forests® 분류: 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 흉통 유형, ...

모형 요약 전체 예측 변수 13 중요 예측 변수 13 통계량 OOB 평균 음수 로그 우도 0.4004 ROC 곡선 아래 면적 0.9028 95% CI (0.8693, 0.9363) 향상도 2.1079 오분류 비율 0.1848

TreeNet® 분류: 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 흉통 유형, 단식 혈당, ...

모형 요약 전체 예측 변수 13 중요 예측 변수 13 성장한 트리 수 500 최적의 트리 수 351 통계량 교육 검정 평균 음수 로그 우도 0.2341 0.3865 ROC 곡선 아래 면적 0.9825 0.9089 95% CI (0.9706, 0.9945) (0.8757, 0.9421) 향상도 2.1799 2.1087 오분류 비율 0.0759 0.1750

모형 요약 표는 평균 음수 로그 우도가 0.3994임을 보여줍니다. 이러한 통계는 500개 트리를 키울 때 Minitab TreeNet®에서 만드는 모형과 유사한 모형을 나타냅니다. 오분류 비율도 비슷합니다.

상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 주요 출혈입니다. 상위 예측 변수인 주요 출혈의 기여도가 100%인 경우 다음으로 중요한 변수인 Thal의 기여도는 89.7%입니다. 이것은 Thal이 이 분류 모형의 주요 출혈만큼 중요한 89.7%임을 의미합니다.

Random Forests® 분류: 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 흉통 유형, ...

오차 행렬 예측 등급(OOB) 실제 등급 카운트 예 아니요 정답률(%) 예 (사건) 139 109 30 78.42 아니요 164 26 138 84.15 모두 303 135 168 81.52 통계량 OOB(%) 진양성률(민감도 또는 검정력) 78.42 가양성률(유형 I 오차) 15.85 가음성률(유형 II 오차) 21.58 진음성률(특이성) 84.15

오차 행렬은 모형이 등급을 올바르게 구분하는 방법을 보여줍니다. 이 예제에서 사건이 올바르게 예측될 확률은 78.42%입니다. 비사건이 올바르게 예측될 확률은 84.15%입니다.

Random Forests® 분류: 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 흉통 유형, ...

오분류 OOB 실제 등급 카운트 오분류됨 오차율(%) 예 (사건) 139 30 21.58 아니요 164 26 15.85 모두 303 56 18.48

오분류 비율은 모형이 새 관측치를 정확하게 예측할지 여부를 나타내는 데 도움이 됩니다. 사건 예측의 경우 오분류 오차는 21.58%입니다. 비사건 예측의 경우 오분류 오차는 15.85%이며 전체적으로 오분류 오차는 18.48%입니다.

이러한 데이터에 대한 ROC 곡선 아래 면적은 약 0.9028이며, CART® 분류 모형에 비해 약간의 개선이 표시됩니다. TreeNet® 분류모형에는 0.9089의 검정 AUROC가 있으므로 이러한 2가지 방법이 비슷한 결과를 제공합니다.

이 예제에서 이익 차트는 기준선 위로 급격히 증가한 다음 평평해집니다. 이 경우 데이터의 약 40%가 진양성의 약 78%를 차지합니다. 이 차이는 모형을 사용하여 산출된 추가 이득입니다.

이 예제에서는 향상도 차트가 기준선 위로 크게 증가하고 점차 떨어집니다.