TreeNet® 분류를 통한주요 예측 변수 검색의 예제

참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

연구원팀은 구운 프레첼의 품질 특성에 영향을 미치는 요인에 대한 데이터를 수집합니다. 변수에는 믹스 도구와 같은 프로세스 설정과 밀가루 단백질와 같은 그레인 속성이 포함됩니다.

데이터의 초기 탐색의 일환으로, 연구원들은 가장 중요하지 않은 예측 변수를 순차적으로 제거하여 모형을 비교하는 데 주요 예측 변수 검색를 사용하기로 결정하여 주요 예측 변수를 식별합니다. 연구원들은 품질 특성에 큰 영향을 미치는 주요 예측 변수를 식별하고 품질 특성과 주요 예측 변수 사이의 관계에 대한 더 많은 통찰력을 얻을 수 있기를 바랍니다.

  1. 표본 데이터 프레첼수용성.MTW를 엽니다.
  2. 예측 분석 모듈 > TreeNet® 분류 > 주요 예측 변수 검색을 선택합니다.
  3. 드롭다운 리스트에서 이항 반응을 선택합니다.
  4. 반응에서 허용 가능한 프레첼를 입력합니다.
  5. 반응 사건에서 1을 선택하여 프레첼이 허용된다는 것을 나타냅니다.
  6. 계량형 예측 변수밀가루 단백질-를 입력합니다.벌크 밀도.
  7. 범주형 예측 변수믹스 도구-를 입력합니다.가마 방법.
  8. 주요 예측 변수 검색을 클릭합니다.
  9. 최대 제거 수 단계29를 입력합니다.
  10. 각 대화 상자에서 확인를 클릭합니다.

결과 해석

이 분석의 경우 Minitab Statistical Software는 28개의 모형을 비교합니다. 폼 안정성 예측 변수가 첫 번째 모형에서 중요도 점수 0이므로 알고리즘이 첫 번째 단계에서 2개의 변수를 제거하기 때문에 단계 수는 최대 단계 수보다 적습니다. 모형 평가 표의 모형 열의 별표는 평균 로그 우도 통계의 값이 가장 작은 모형이 모형 23임을 보여줍니다. 모형 평가 표의 결과는 모형 23용에 대한 것니다.

모형 23은 평균 로그 우도 통계의 값이 가장 작지만 다른 모형은 값이 비슷합니다. 팀은 대체 모형 선택을(를) 클릭하여 모형 평가 표에서 다른 모형에 대한 결과를 생성할 수 있습니다.

모형 23의 결과에서 평균 로그 우도 대 트리 수 플롯은 최적의 트리 수가 분석에서의 트리 수에 거의 같음을 보여줍니다. 팀은 더 나은 모형을 식별하기 위한 초모수 조정을(를) 클릭하여 트리 수를 늘리고 다른 하이파라미터에 대한 변경으로 모형의 성능이 향상되는지 확인할 수 있습니다.

상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 믹스 타임입니다. 상위 예측 변수, 믹스 타임의 중요도가 100%인 경우 다음 중요도 변수, 가마 온도은(는) 기여도가 93.9%입니다. 이는 가마 온도이(가)믹스 타임 만큼 중요한 93.9%임을 의미합니다.

부분 종속성 플롯을 사용하여 변수의 중요한 변수 또는 변수 쌍이 예측된 반응에 미치는 영향을 이해할 수 있습니다. 1/2 로그 축척의 반응 값은 모형의 예측입니다. 부분 종속성 플롯은 반응과 변수 간의 관계가 선형, 단조로움 또는 더 복잡한지 여부를 보여줍니다.

하나의 예측 변수 부분 종속 플롯은 믹스 타임가마 온도구울 시간에 대한 중간 값을 허용 가능한 프레첼의 승산을 증가시킵니다. 건조 시간의 중간 값은 허용 가능한 프레첼의 승산을 감소시킵니다. 연구원들은 플롯에 대해 더 많은 예측 변수 선택을(를) 클릭하여 다른 변수에 대한 플롯을 생성할 수 있습니다.

믹스 타임가마 온도의 두 개의 예측 변수 부분 종속 플롯은 두 개의 변수와 반응 사이의 보다 복잡한 관계를 보여줍니다. 믹스 타임가마 온도의 중간 값이 허용 가능한 프레첼의 승산을 증가시키는 반면, 플롯은 두 개의 변수 모두가 중간 값에 있을 때 가장 좋은 승산이 발생한다는 것을 보여 주며, 연구원들은 플롯에 대해 더 많은 예측 변수 선택을(를) 클릭하여 다른 변수 쌍의 플롯을 생성할 수 있습니다.

TreeNet® 분류: 허용 가능한 프레첼 대 밀가루 단백질, 물, 믹스 타임, 휴식 시간, 베이크 타임, 건조 시간, ...

방법 최적 트리 수 선택 기준 최대 로그 우도 모형 검증 70/30% 교육/검정 집합 학습률 0.05 하위 표본 선택 방법 완전 랜덤 하위 표본 부분 0.5 트리당 최대 터미널 노드 수 6 최소 단말 노드 크기 3 노드 분할을 위해 선택된 예측 변수 수 총 예측 변수 수 = 29 사용된 행 5000
이항 반응 정보 교육 검정 변수 등급 카운트 % 카운트 % 허용 가능한 프레첼 1 (사건) 2160 61.82 943 62.62 0 1334 38.18 563 37.38 모두 3494 100.00 1506 100.00

하나의 예측 변수 부분 종속성 플롯

플롯할 예측 변수를 더 선택합니다...

두 개의 예측 변수 부분 종속성 플롯

플롯할 예측 변수를 더 선택합니다...

TreeNet® 분류 - 주요 예측 변수 검색: 허용 가능한 프레첼 vs 밀가루 단백질, 물, 믹스 타임, 휴식 시간, 베이크 타임, ...

예측 변수 제거

중요하지 않은 예측 변수를 제거하여 모형 선택 검정 모형 최적의 트리 수 평균 음수 로그 우도 예측 변수 수 제거된 예측 변수 1 268 0.273936 29 없음 2 268 0.274186 27 폼 안정성, 벌크 밀도 3 234 0.273843 26 최소 겔화 농도 4 233 0.274350 25 오븐 모드 2 5 232 0.274943 24 가마 방법 6 273 0.275553 23 오븐 모드 1 7 244 0.274811 22 믹스 스피드 8 268 0.274258 21 오븐 모드 3 9 272 0.274185 20 휴식 표면 10 232 0.274077 19 굽는 온도 3 11 287 0.273598 18 믹스 툴 12 227 0.274358 17 베이킹 온도 1 13 276 0.275374 16 휴식 시간 14 272 0.276082 15 물 15 268 0.275595 14 가성 농도 16 268 0.277810 13 붓기 용량 17 253 0.276436 12 에멀젼 안정성 18 231 0.276159 11 에멀젼 활동 19 268 0.273537 10 수흡수 능력 20 260 0.273455 9 오일 흡수 용량 21 299 0.272848 8 밀가루 단백질 22 278 0.272629 7 폼 용량 23* 299 0.267184 6 밀가루 크기 24 297 0.288621 5 베이킹 온도 2 25 234 0.330342 4 건조 시간 26 290 0.305993 3 젤라틴화 온도 27 245 0.534345 2 베이크 타임 28 146 0.599837 1 가마 온도 알고리즘은 각 단계에서 하나의 예측 변수와 중요도가 0인 임의의 예측 변수를 제거했습니다. * 선택한 모형에는 최소 평균 음수 로그 우도가 있습니다. 선택한 모형의 출력이 뒤에 나옵니다.

하나의 예측 변수 부분 종속성 플롯

플롯할 예측 변수를 더 선택합니다...

두 개의 예측 변수 부분 종속성 플롯

플롯할 예측 변수를 더 선택합니다...

TreeNet® 분류: 허용 가능한 프레첼 대 믹스 타임, 베이크 타임, 건조 시간, 베이킹 온도 2, 가마 온도, 젤라틴화 온도

모형 요약 전체 예측 변수 6 중요 예측 변수 6 성장한 트리 수 300 최적의 트리 수 299 통계량 교육 검정 평균 음수 로그 우도 0.2418 0.2672 ROC 곡선 아래 면적 0.9661 0.9412 95% CI (0.9608, 0.9713) (0.9295, 0.9529) 향상도 1.6176 1.5970 오분류 비율 0.0970 0.0963

하나의 예측 변수 부분 종속성 플롯

플롯할 예측 변수를 더 선택합니다...

두 개의 예측 변수 부분 종속성 플롯

플롯할 예측 변수를 더 선택합니다...

TreeNet® 분류: 허용 가능한 프레첼 대 믹스 타임, 구울 시간, 건조 시간, 베이크 온도 2, 가마 온도, 젤라틴화 온도

오차 행렬 예측된 등급(교육) 예측된 등급(검정) 실제 등급 카운트 1 0 정답률(%) 카운트 1 0 정답률(%) 1 (사건) 2160 1942 218 89.91 943 846 97 89.71 0 1334 121 1213 90.93 563 48 515 91.47 모두 3494 2063 1431 90.30 1506 894 612 90.37 행의 사건 확률이 0.5을 초과하는 경우 사건 등급에 행을 할당합니다.
통계량 교육(%) 검정(%) 진양성률(민감도 또는 검정력) 89.91 89.71 가양성률(유형 I 오차) 9.07 8.53 가음성률(유형 II 오차) 10.09 10.29 진음성률(특이성) 90.93 91.47
오분류 교육 검정 실제 등급 카운트 오분류됨 오차율(%) 카운트 오분류됨 오차율(%) 1 (사건) 2160 218 10.09 943 97 10.29 0 1334 121 9.07 563 48 8.53 모두 3494 339 9.70 1506 145 9.63 행의 사건 확률이 0.5을 초과하는 경우 사건 등급에 행을 할당합니다.

하나의 예측 변수 부분 종속성 플롯

플롯할 예측 변수를 더 선택합니다...

두 개의 예측 변수 부분 종속성 플롯

플롯할 예측 변수를 더 선택합니다...