TreeNet® 분류를 통한 모형 적합주요 예측 변수 검색에 대한 최적의 트리 수 선택

참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

원하는 방법이나 수식을 선택합니다.

분석은 각 트리의 정보에서 모형을 약간 수정하여 지정한 만큼 트리를 작성합니다. 분석에 검증 방법이 포함된 경우 분석은 학습 데이터에 대한 모형 선택 기준 값과 각 트리 수에 대한 검정 데이터를 계산합니다. 검정 집합의 최적 값은 최적 모형의 트리 수를 결정합니다.

모형 검증 방법

최대 로그 우도와 같은 모형 요약 통계는 모형을 적합하는 데 사용하는 것과 동일한 데이터로 계산할 때 낙관적인 경향이 있습니다. 모형 검증 방법은 데이터 일부를 모형 적합 프로세스에서 제거한 다음 생략된 데이터에서 모형의 성능을 평가하는 통계를 계산합니다. 모형 검증 기술은 모형이 새 데이터에 대해 얼마나 잘 수행되는지 더 잘 예측할 수 있습니다. 분석에 대한 선택에 따라 기준은 최대 로그 우도, ROC 곡선 아래 최대 면적 또는 최소 오분류 비율입니다. Minitab은 두 가지 검증 방법, 즉 k-접기 교차 검증 및 별도의 검증 집합을 사용한 검증을 제공합니다.

K-접기 교차 검증을 사용한 최적의 트리

K-접기 교차 검증은 데이터가 2000건 이하인 경우 Minitab의 기본 방법입니다. 프로세스가 K번 반복하기 때문에 교차 검증은 일반적으로 검정 집합의 검증보다 느립니다.

K-접기 교차 검증 절차

Minitab Statistical Software는 다음 단계에 따라 K-접기 교차 검증을 완료합니다.
  1. 데이터를 최대한 동일한 크기의 K 임의 하위 집합으로 분할합니다. 이 부분 집합을 접기라고 합니다.
  2. 접기 k, k = 1, ..., K의 경우, 데이터의 나머지 K–1 접기를 사용하여 트리의 시퀀스를 성장시킵니다. k번째 접기에서 데이터와 함께 각 트리의 모형 선택 기준값을 계산합니다.
  3. 모든 K 접기에 대해 2단계를 반복합니다.
  4. 각 트리 수에 대해 K 접기 모형 전반에 걸쳐 모형 선택 기준값을 평균으로 나눕니다. 최상의 평균값을 가진 트리 수는 최적의 모형을 만듭니다.

별도의 검정 집합이 있는 최적 트리

검정 집합을 사용한 검증에서 검증을 위해 데이터의 일부를 따로 설정합니다. 나머지 데이터는 학습 집합입니다. 먼저, Minitab은 학습 집합과 트리의 시퀀스를 성장시킵니다. 그런 다음 Minitab은 검정 집합을 사용하여 각 트리 수에 대한 모형 선택 기준값을 계산합니다. 최상의 값을 가진 트리 수는 최적의 모형을 만듭니다.

검증을 사용하지 않은 최적 트리

검증을 사용하지 않으면 Minitab은 모형을 적합하는 데 전체 데이터 집합을 사용합니다. 최종 모형에는 가장 많은 수의 트리가 포함되어 있습니다.