TreeNet® 분류가 포함된 주요 예측 변수 검색의 예

참고

이 명령은 에서 사용할 수 있습니다예측 분석 모듈. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

연구원팀은 구운 프레첼의 품질 특성에 영향을 미치는 요인에 대한 데이터를 수집합니다. 변수에는 믹스 도구와 같은 프로세스 설정이나 밀가루 단백질와 같은 곡물 속성이 포함됩니다.

데이터의 초기 탐색의 일부로, 팀은 주요 예측 변수를 식별하기 위해 중요하지 않은 예측 변수를 순차적으로 제거하여 모델을 비교하는 데 사용 주요 예측 변수 검색 하기로 결정합니다. 연구원들은 품질 특성에 큰 영향을 미치는 주요 예측 변수를 식별하고 품질 특성과 주요 예측 변수 사이의 관계에 대한 더 많은 통찰력을 얻을 수 있기를 바랍니다.

  1. 표본 데이터 프레첼수용성.MTW를 엽니다.
  2. 예측 분석 모듈 > TreeNet® 분류 > 주요 예측 변수 검색을 선택합니다.
  3. 드롭다운 목록에서 이항 반응을 선택합니다.
  4. 반응허용 가능한 프레첼를 입력합니다.
  5. 반응 사건에서 1을 선택하여 프레첼이 허용된다는 것을 나타냅니다.
  6. 계량형 예측 변수에서 밀가루 단백질-벌크 밀도를 입력합니다.
  7. 범주형 예측 변수에서 믹스 도구-가마 방법를 입력합니다.
  8. 주요 예측 변수 검색을 클릭합니다.
  9. 최대 제거 수 단계29를 입력합니다.
  10. 각 대화 상자에서 확인를 클릭합니다.

결과 해석

이 분석의 경우 Minitab Statistical Software는 28개의 모형을 비교합니다. 폼 안정성 예측 변수가 첫 번째 모형에서 중요도 점수 0이므로 알고리즘이 첫 번째 단계에서 2개의 변수를 제거하기 때문에 단계 수는 최대 단계 수보다 적습니다. 모형 평가 표의 모형 열의 별표는 평균 로그 우도 통계의 값이 가장 작은 모형이 모형 23임을 보여줍니다. 모형 평가 표의 결과는 모형 23용에 대한 것니다.

모형 23은 평균 로그 우도 통계의 값이 가장 작지만 다른 모형은 값이 비슷합니다. 팀은 대체 모델 선택을(를) 클릭하여 모형 평가 표에서 다른 모형에 대한 결과를 생성할 수 있습니다.

모형 23의 결과에서 평균 로그 우도 대 트리 수 플롯은 최적의 트리 수가 분석에서의 트리 수에 거의 같음을 보여줍니다. 팀은 하이퍼파라미터 튜닝을(를) 클릭하여 트리 수를 늘리고 다른 하이파라미터에 대한 변경으로 모형의 성능이 향상되는지 확인할 수 있습니다.

상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 믹스 타임입니다. 상위 예측 변수, 믹스 타임의 중요도가 100%인 경우 다음 중요도 변수, 가마 온도은(는) 기여도가 93.9%입니다. 이는 가마 온도이(가)믹스 타임 만큼 중요한 93.9%임을 의미합니다.

부분 종속성도를 사용하면 중요한 변수 또는 변수 쌍이 적합 반응 값에 어떤 영향을 미치는지 파악할 수 있습니다. 적합된 반응 값은 1/2 로그 척도에 있습니다. 부분 종속성 플롯은 반응과 변수 간의 관계가 선형, 단조로움 또는 더 복잡한지 여부를 보여줍니다.

하나의 예측 변수 부분 종속 플롯은 믹스 타임 가마 온도구울 시간에 대한 중간 값을 허용 가능한 프레첼의 승산을 증가시킵니다. 건조 시간의 중간 값은 허용 가능한 프레첼의 승산을 감소시킵니다. 연구원은 다른 변수에 대한 플롯을 생성하도록 선택할 하나의 예측 변수 그림 수 있습니다.

믹스 타임가마 온도의 두 개의 예측 변수 부분 종속 플롯은 두 개의 변수와 반응 사이의 보다 복잡한 관계를 보여줍니다. 중간 값은 믹스 타임 가마 온도 허용 가능한 프레첼의 확률을 증가시키지만, 플롯은 두 변수가 모두 중간 값일 때 최상의 확률이 발생한다는 것을 보여줍니다. 연구원은 다른 변수 쌍에 대한 그림을 생성하도록 선택할 두 개의 예측 변수 그림 수 있습니다.

방법

최적 트리 수 선택 기준최대 로그 우도
모형 검증70/30% 교육/검정 집합
학습률0.05
하위 표본 선택 방법완전 랜덤
    하위 표본 부분0.5
트리당 최대 터미널 노드 수6
최소 단말 노드 크기3
노드 분할을 위해 선택된 예측 변수 수총 예측 변수 수 = 29
사용된 행5000

이항 반응 정보



교육검정
변수등급카운트%카운트%
허용 가능한 프레첼1 (사건)216061.8294362.62
  0133438.1856337.38
  모두3494100.001506100.00

중요하지 않은 예측 변수를 제거하여 모형 선택

검정
모형최적의 트리 수평균 음수 로그 우도예측 변수 수제거된 예측 변수
12680.27393629없음
22680.27418627폼 안정성, 벌크 밀도
32340.27384326최소 겔화 농도
42330.27435025오븐 모드 2
52320.27494324가마 방법
62730.27555323오븐 모드 1
72440.27481122믹스 스피드
82680.27425821오븐 모드 3
92720.27418520쉬고 있는 표면
102320.27407719베이킹 온도 3
112870.27359818믹스 도구
122270.27435817베이킹 온도 1
132760.27537416휴식 시간
142720.27608215
152680.27559514가성 농도
162680.27781013부종 용량
172530.27643612에멀젼 안정성
182310.27615911에멀젼 활동
192680.27353710수흡수 능력
202600.2734559오일 흡수 능력
212990.2728488밀가루 단백질
222780.2726297폼 용량
23*2990.2671846밀가루 사이즈
242970.2886215베이크 온도 2
252340.3303424건조 시간
262900.3059933젤라틴화 온도
272450.5343452구울 시간
281460.5998371가마 온도
알고리즘은 각 단계에서 하나의 예측 변수와 중요도가 0인 임의의 예측 변수를 제거했습니다.
* 선택한 모형에는 최소 평균 음수 로그 우도가 있습니다. 선택한 모형의 출력이 뒤에 나옵니다.

모형 요약

전체 예측 변수6
중요 예측 변수6
성장한 트리 수300
최적의 트리 수299
통계량교육검정
평균 음수 로그 우도0.24180.2672
ROC 곡선 아래 면적0.96610.9412
        95% CI(0.9608, 0.9713)(0.9295, 0.9529)
향상도1.61761.5970
오분류 비율0.09700.0963

오차 행렬


예측된 등급(교육)예측된 등급(검정)
실제 등급카운트10정답률(%)카운트10정답률(%)
1 (사건)2160194221889.919438469789.71
01334121121390.935634851591.47
모두34942063143190.30150689461290.37
행의 사건 확률이 0.5을 초과하는 경우 사건 등급에 행을 할당합니다.
     
통계량교육(%)검정(%)
진양성률(민감도 또는 검정력)89.9189.71
가양성률(유형 I 오차)9.078.53
가음성률(유형 II 오차)10.0910.29
진음성률(특이성)90.9391.47

오분류


교육검정
실제 등급카운트오분류됨오차율(%)카운트오분류됨오차율(%)
1 (사건)216021810.099439710.29
013341219.07563488.53
모두34943399.7015061459.63
행의 사건 확률이 0.5을 초과하는 경우 사건 등급에 행을 할당합니다.