이 명령은 에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.
연구원 팀은 심장병에 영향을 미치는 요인에 관하여 상세한 정보를 수집하고 게시합니다. 변수는 나이, 성별, 콜레스테롤 수치, 최대 심장 박동 등을 포함합니다. 이 예제는 심장병에 대한 자세한 정보를 제공하는 공개 데이터 집합을 기반으로 합니다. 원래 데이터는 archive.ics.uci.edu에서 볼 수 있습니다.
연구원은 가능한 가장 정확한 예측을 만드는 모델을 찾고 싶어. 연구진은 최고의 모형 검색(이항 반응) 사용하여 바이너리 로지스틱 회귀, TreeNet®, 랜덤 포레스트® 및 카트® 4가지 유형의 모델의 예측 성능을 비교합니다. 연구원은 최고의 예측 성능으로 모델의 유형을 더 탐구 할 계획이다.
모델 선택 테이블은 다양한 유형의 모델의 성능을 비교합니다. 랜덤 포리스트® 모델은 평균 -log가능성의 최소 값을 가지고 있습니다. 다음 결과는 최상의 Random Forests® 모델에 대한 것입니다.
오분류 비율 대 트리 수 그림은 성장한 트리 수에 대한 전체 곡선을 보여줍니다. 오분류 비율은 약 0.16입니다.
모형 요약 표는 평균 음수 로그 우도가 0.39임을 보여줍니다.
상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 Thal입니다. 상위 예측 변수인 Thal의 기여도가 100%인 경우 다음으로 중요한 변수인 주요 출혈은 98.9%의 기여도를 가집니다. 이는 이 분류 모델에서 주요 선박이 Thal만큼 98.9% 중요하다는 것을 의미합니다.
오차 행렬은 모형이 등급을 올바르게 구분하는 방법을 보여줍니다. 이 예에서 이벤트가 올바르게 예측될 확률은 약 87%입니다. 비사건이 정확하게 예측될 확률은 약 81%입니다.
오분류 비율은 모형이 새 관측치를 정확하게 예측할지 여부를 나타내는 데 도움이 됩니다. 이벤트 예측의 경우 out-of-bag 오분류 오류는 약 13%입니다. 비사건 예측의 경우 오분류 오류는 약 19%입니다. 전반적으로 테스트 데이터에 대한 오분류 오류는 약 16%입니다.
무작위 포리스트® 모델의 ROC 곡선 아래 영역은 백 외 데이터의 경우 약 0.90입니다.
연구원은 최고의 모델에 대 한 검색에서 다른 모델에 대 한 결과 볼 수 있습니다. TreeNet® 모델의 경우 검색의 일부인 모델에서 선택하거나 다른 모델에 대한 하이퍼매개변수를 지정할 수 있습니다.
이 분석을 위해 Minitab은 300개의 트리를 키우고 최적의 트리 수는 46개입니다. 이 모델은 학습 률 0.1과 하위 샘플 분획0.5를 사용합니다. 트리당 최대 터미널 노드 수는 6입니다.
평균 – 로그우도 대 트리 수 그림은 성장한 트리 수에 대한 전체 곡선을 보여줍니다. 검정 데이터에 대한 최적의 값은 트리 수가 46인 경우 0.3907입니다.
트리 수가 46개인 경우 모델 요약 테이블은 평균 음의 로그 가능성이 훈련 데이터의 경우 약 0.21이고 테스트 데이터의 경우 약 0.39임을 나타냅니다.
상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 흉통 유형입니다. 상위 예측 변수인 흉통 유형의 기여도가 100%이면 다음으로 중요한 변수인 Thal도 95.8%의 기여도를 갖습니다. 이는 이 분류 모델에서 Thal이 흉통 유형만큼 95.8% 중요하다는 것을 의미합니다.
오차 행렬은 모형이 등급을 올바르게 구분하는 방법을 보여줍니다. 이 예에서 이벤트가 올바르게 예측될 확률은 약 89%입니다. 비사건이 정확하게 예측될 확률은 약 80%입니다.
오분류 비율은 모형이 새 관측치를 정확하게 예측할지 여부를 나타내는 데 도움이 됩니다. 이벤트 예측의 경우 테스트 오분류 오류는 약 11%입니다. 비사건 예측의 경우 오분류 오류는 약 20%입니다. 전반적으로 테스트 데이터에 대한 오분류 오류는 약 15%입니다.
나무의 수가 46개일 때 ROC 곡선 아래의 면적은 훈련 데이터의 경우 약 0.98이고 테스트 데이터의 경우 약 0.90입니다.
이 예제에서 이익 차트는 기준선 위로 급격히 증가한 다음 평평해짐을 보여줍니다. 이 경우 데이터의 약 60%가 참양성의 약 90%를 차지합니다. 이 차이는 모형을 사용하여 산출된 추가 이득입니다.
이 예제에서 리프트 차트는 전체 수의 약 50% 후에 빠르게 감소하기 시작하는 참조 선 위의 큰 증가를 보여줍니다.
부분 종속성 플롯을 사용하여 변수의 중요한 변수 또는 변수 쌍이 예측된 반응에 미치는 영향을 이해할 수 있습니다. 장착된 응답 값은 1/2 로그 척도에 있습니다. 부분 종속성 플롯은 반응과 변수 간의 관계가 선형, 단조로움 또는 더 복잡한지 여부를 보여줍니다.
예를 들어, 흉통 유형의 부분 의존도 그림에서 1/2 로그 확률은 값 3에서 가장 높습니다. 플롯에 대해 더 많은 예측 변수 선택 을(를) 클릭하여 다른 변수에 대한 플롯을 생성하십시오.