최고의 모형 검색(이항 반응)의 예

최상의 모델 검색

연구원 팀은 심장병에 영향을 미치는 요인에 관하여 상세한 정보를 수집하고 게시합니다. 변수는 나이, 성별, 콜레스테롤 수치, 최대 심장 박동 등을 포함합니다. 이 예제는 심장병에 대한 자세한 정보를 제공하는 공개 데이터 집합을 기반으로 합니다. 원래 데이터는 archive.ics.uci.edu에서 볼 수 있습니다.

연구원은 가능한 가장 정확한 예측을 만드는 모델을 찾고 싶어. 연구진은 최고의 모형 검색(이항 반응) 사용하여 바이너리 로지스틱 회귀, TreeNet®, 랜덤 포레스트® 및 카트® 4가지 유형의 모델의 예측 성능을 비교합니다. 연구원은 최고의 예측 성능으로 모델의 유형을 더 탐구 할 계획이다.

다음 링크를 사용하여 다른 데이터 집합에 대한 각 유형의 모델의 예를 확인합니다.
  1. 표본 데이터 심장병바이너리최고의모델.MTW를 엽니다.
  2. 예측 분석 모듈 > 자동화된 기계 학습 > 최고의 모형 검색(이항 반응) 을 선택합니다.
  3. 반응 에 '심장 병'을 입력합니다.
  4. 계량형 예측 변수연령'나머지 혈압', 콜레스테롤 '최대 심박수', 및 '올드 피크'을 입력합니다.
  5. 범주형 예측 변수, 섹스, ' 흉통 유형', '단식 혈당', '레스트 심전도', '운동 협 심 증', 경사, '주요 선박', 및 을(를) 입력합니다.
  6. 확인 을 클릭합니다.

결과 해석

모델 선택 테이블은 다양한 유형의 모델의 성능을 비교합니다. 랜덤 포리스트® 모델은 평균 -log가능성의 최소 값을 가지고 있습니다. 다음 결과는 최상의 Random Forests® 모델에 대한 것입니다.

오분류 비율 대 트리 수 그림은 성장한 트리 수에 대한 전체 곡선을 보여줍니다. 오분류 비율은 약 0.16입니다.

모형 요약 표는 평균 음수 로그 우도가 0.39임을 보여줍니다.

상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 Thal입니다. 상위 예측 변수인 Thal의 기여도가 100%인 경우 다음으로 중요한 변수인 주요 출혈은 98.9%의 기여도를 가집니다. 이는 이 분류 모델에서 주요 선박이 Thal만큼 98.9% 중요하다는 것을 의미합니다.

오차 행렬은 모형이 등급을 올바르게 구분하는 방법을 보여줍니다. 이 예에서 이벤트가 올바르게 예측될 확률은 약 87%입니다. 비사건이 정확하게 예측될 확률은 약 81%입니다.

오분류 비율은 모형이 새 관측치를 정확하게 예측할지 여부를 나타내는 데 도움이 됩니다. 이벤트 예측의 경우 out-of-bag 오분류 오류는 약 13%입니다. 비사건 예측의 경우 오분류 오류는 약 19%입니다. 전반적으로 테스트 데이터에 대한 오분류 오류는 약 16%입니다.

무작위 포리스트® 모델의 ROC 곡선 아래 영역은 백 외 데이터의 경우 약 0.90입니다.

최고의 모형 검색(이항 반응): 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 흉통 유형, ...

방법 선형 항 및 순서 2의 항이 포함된 단계적 로지스틱 회귀 모형을 적합합니다. 6 TreeNet® 분류 모형을 적합합니다. 교육 데이터 크기 303와(과) 동일한 부트스트랩 표본 크기로 3 Random Forests® 분류 모형을 적합합니다. 최적의 CART® 분류 모형을 적합합니다. 5 접기 교차 검증에서 최대 로그우도가 있는 모형을 선택합니다. 행의 총 수: 303 로지스틱 회귀 모형에 사용되는 행: 303 트리 기반 모형에 사용되는 행: 303
이항 반응 정보 변수 등급 카운트 % 심장 병 1 (사건) 165 54.46 0 138 45.54 모두 303 100.00

모형 선택

유형 내에서 최고의 모형 평균 음수 로그 우도 ROC 곡선 아래 면적 분류 율 잘못 Random Forests®* 0.3904 0.9048 0.1584 TreeNet® 0.3907 0.9032 0.1520 로지스틱 회귀 0.4671 0.9142 0.1518 CART® 1.8072 0.7991 0.2080 * 최소 평균 -로그 우도가 있는 모든 모형 유형에서 최고의 모형. 최고의 모형 출력이 뒤에 나옵니다.
최고의 Random Forests® 모형에 대한 하이퍼파라미터 부트스트랩 표본 수 300 표본 크기 학습 데이터 크기 303과 동일 노드 분할을 위해 선택된 예측 변수 수 총 예측 변수 수의 제곱근 = 3 최소 내부 노드 크기 8

오분류 비율 대 트리 수 그림

모형 요약 전체 예측 변수 13 중요 예측 변수 13 통계량 OOB 평균 음수 로그 우도 0.3904 ROC 곡선 아래 면적 0.9048 95% CI (0.8706, 0.9389) 향상도 1.7758 오분류 비율 0.1584
오차 행렬 예측 등급(OOB) 실제 등급 카운트 1 0 정답률(%) 1 (사건) 165 143 22 86.67 0 138 26 112 81.16 모두 303 169 134 84.16 통계량 OOB(%) 진양성률(민감도 또는 검정력) 86.67 가양성률(유형 I 오차) 18.84 가음성률(유형 II 오차) 13.33 진음성률(특이성) 81.16
오분류 OOB 실제 등급 카운트 오분류됨 오차율(%) 1 (사건) 165 22 13.33 0 138 26 18.84 모두 303 48 15.84

수신자 검사 특성(ROC) 곡선

이익 차트

향상도 차트

대체 모형 선택

연구원은 최고의 모델에 대 한 검색에서 다른 모델에 대 한 결과 볼 수 있습니다. TreeNet® 모델의 경우 검색의 일부인 모델에서 선택하거나 다른 모델에 대한 하이퍼매개변수를 지정할 수 있습니다.

  1. 모형 요약 표 후에 대체 모형 선택 을(를) 클릭합니다.
  2. 모형 유형 에서 TreeNet® 를 선택합니다.
  3. 기존 모형 선택 에서 최소 평균 -log가능성의 가장 좋은 값을 가지는 세 번째 모델을 선택합니다.
  4. 결과 표시 을 클릭합니다.

결과 해석

이 분석을 위해 Minitab은 300개의 트리를 키우고 최적의 트리 수는 46개입니다. 이 모델은 학습 률 0.1과 하위 샘플 분획0.5를 사용합니다. 트리당 최대 터미널 노드 수는 6입니다.

평균 – 로그우도 대 트리 수 그림은 성장한 트리 수에 대한 전체 곡선을 보여줍니다. 검정 데이터에 대한 최적의 값은 트리 수가 46인 경우 0.3907입니다.

TreeNet® 분류: 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 흉통 유형, 단식 혈당, ...

모형 요약 전체 예측 변수 13 중요 예측 변수 13 성장한 트리 수 300 최적의 트리 수 46 통계량 교육 검정 평균 음수 로그 우도 0.2088 0.3907 ROC 곡선 아래 면적 0.9842 0.9032 95% CI (0.9721, 0.9964) (0.8683, 0.9381) 향상도 1.8364 1.7744 오분류 비율 0.0726 0.1520

트리 수가 46개인 경우 모델 요약 테이블은 평균 음의 로그 가능성이 훈련 데이터의 경우 약 0.21이고 테스트 데이터의 경우 약 0.39임을 나타냅니다.

상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 흉통 유형입니다. 상위 예측 변수인 흉통 유형의 기여도가 100%이면 다음으로 중요한 변수인 Thal도 95.8%의 기여도를 갖습니다. 이는 이 분류 모델에서 Thal이 흉통 유형만큼 95.8% 중요하다는 것을 의미합니다.

TreeNet® 분류: 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 흉통 유형, 단식 혈당, ...

오차 행렬 예측된 등급(교육) 예측된 등급(검정) 실제 등급 카운트 1 0 정답률(%) 1 0 정답률(%) 1 (사건) 165 156 9 94.55 147 18 89.09 0 138 13 125 90.58 28 110 79.71 모두 303 169 134 92.74 175 128 84.82 행의 사건 확률이 0.5을 초과하는 경우 사건 등급에 행을 할당합니다.
통계량 교육(%) 검정(%) 진양성률(민감도 또는 검정력) 94.55 89.09 가양성률(유형 I 오차) 9.42 20.29 가음성률(유형 II 오차) 5.45 10.91 진음성률(특이성) 90.58 79.71

오차 행렬은 모형이 등급을 올바르게 구분하는 방법을 보여줍니다. 이 예에서 이벤트가 올바르게 예측될 확률은 약 89%입니다. 비사건이 정확하게 예측될 확률은 약 80%입니다.

TreeNet® 분류: 심장 병 대 연령, 나머지 혈압, 콜레스테롤, 최대 심박수, 올드 피크, 섹스, 흉통 유형, 단식 혈당, ...

오분류 교육 검정 실제 등급 카운트 오분류됨 오차율(%) 오분류됨 오차율(%) 1 (사건) 165 9 5.45 18 10.91 0 138 13 9.42 28 20.29 모두 303 22 7.26 46 15.18 행의 사건 확률이 0.5을 초과하는 경우 사건 등급에 행을 할당합니다.

오분류 비율은 모형이 새 관측치를 정확하게 예측할지 여부를 나타내는 데 도움이 됩니다. 이벤트 예측의 경우 테스트 오분류 오류는 약 11%입니다. 비사건 예측의 경우 오분류 오류는 약 20%입니다. 전반적으로 테스트 데이터에 대한 오분류 오류는 약 15%입니다.

나무의 수가 46개일 때 ROC 곡선 아래의 면적은 훈련 데이터의 경우 약 0.98이고 테스트 데이터의 경우 약 0.90입니다.

이 예제에서 이익 차트는 기준선 위로 급격히 증가한 다음 평평해짐을 보여줍니다. 이 경우 데이터의 약 60%가 참양성의 약 90%를 차지합니다. 이 차이는 모형을 사용하여 산출된 추가 이득입니다.

이 예제에서 리프트 차트는 전체 수의 약 50% 후에 빠르게 감소하기 시작하는 참조 선 위의 큰 증가를 보여줍니다.

부분 종속성 플롯을 사용하여 변수의 중요한 변수 또는 변수 쌍이 예측된 반응에 미치는 영향을 이해할 수 있습니다. 장착된 응답 값은 1/2 로그 척도에 있습니다. 부분 종속성 플롯은 반응과 변수 간의 관계가 선형, 단조로움 또는 더 복잡한지 여부를 보여줍니다.

예를 들어, 흉통 유형의 부분 의존도 그림에서 1/2 로그 확률은 값 3에서 가장 높습니다. 플롯에 대해 더 많은 예측 변수 선택 을(를) 클릭하여 다른 변수에 대한 플롯을 생성하십시오.