이 명령은 에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.
연구원 팀은 심장병에 영향을 미치는 요인에 관하여 상세한 정보를 수집하고 게시합니다. 변수는 나이, 성별, 콜레스테롤 수치, 최대 심장 박동 등을 포함합니다. 이 예제는 심장병에 대한 자세한 정보를 제공하는 공개 데이터 집합을 기반으로 합니다. 원래 데이터는 archive.ics.uci.edu에서 볼 수 있습니다.
연구원은 가능한 가장 정확한 예측을 만드는 모델을 찾고 싶어. 연구진은 최고의 모형 검색(이항 반응) 사용하여 바이너리 로지스틱 회귀, TreeNet®, 랜덤 포레스트® 및 카트® 4가지 유형의 모델의 예측 성능을 비교합니다. 연구원은 최고의 예측 성능으로 모델의 유형을 더 탐구 할 계획이다.
모델 선택 테이블은 다양한 유형의 모델의 성능을 비교합니다. 랜덤 포리스트® 모델은 평균 -log가능성의 최소 값을 가지고 있습니다. 다음 결과는 최상의 Random Forests® 모델에 대한 것입니다.
오분류 비율 대 트리 수 그림은 성장한 트리 수에 대한 전체 곡선을 보여줍니다. 오분류 비율은 약 0.16입니다.
모형 요약 표는 평균 음수 로그 우도가 0.39임을 보여줍니다.
상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 Thal입니다. 상위 예측 변수인 Thal의 기여도가 100%인 경우 다음으로 중요한 변수인 주요 출혈은 98.9%의 기여도를 가집니다. 이는 이 분류 모델에서 주요 선박이 Thal만큼 98.9% 중요하다는 것을 의미합니다.
오차 행렬은 모형이 등급을 올바르게 구분하는 방법을 보여줍니다. 이 예에서 이벤트가 올바르게 예측될 확률은 약 87%입니다. 비사건이 정확하게 예측될 확률은 약 81%입니다.
오분류 비율은 모형이 새 관측치를 정확하게 예측할지 여부를 나타내는 데 도움이 됩니다. 이벤트 예측의 경우 out-of-bag 오분류 오류는 약 13%입니다. 비사건 예측의 경우 오분류 오류는 약 19%입니다. 전반적으로 테스트 데이터에 대한 오분류 오류는 약 16%입니다.
무작위 포리스트® 모델의 ROC 곡선 아래 영역은 백 외 데이터의 경우 약 0.90입니다.
연구원은 최고의 모델에 대 한 검색에서 다른 모델에 대 한 결과 볼 수 있습니다. TreeNet® 모델의 경우 검색의 일부인 모델에서 선택하거나 다른 모델에 대한 하이퍼매개변수를 지정할 수 있습니다.
이 분석을 위해 Minitab은 300개의 트리를 키우고 최적의 트리 수는 46개입니다. 이 모델은 학습 률 0.1과 하위 샘플 분획0.5를 사용합니다. 트리당 최대 터미널 노드 수는 6입니다.