TreeNet® 분류를 통한 모형 적합주요 예측 변수 검색 분석 옵션 선택

예측 분석 모듈 > TreeNet® 분류 > 모형 적합 > 옵션

예측 분석 모듈 > TreeNet® 분류 > 주요 예측 변수 검색 > 옵션

참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

분석 옵션을 선택합니다.

최적 트리 수 선택 기준
최적 모형을 생성할 방법을 선택합니다. 여러 방법의 결과를 비교하여 용도에 가장 적합한 선택을 결정할 수 있습니다.
  • 최대 로그 우도: 최대우도법은 데이터에 대한 최대우도법 함수를 찾습니다. 이항 반응이 있는 기본값입니다.
  • ROC 곡선 아래의 최대 면적: ROC 곡선 아래의 최대 영역 방법은 많은 응용 프로그램에서 잘 작동합니다. ROC 곡선 아래의 영역은 모형이 사건을 생성할 가능성이 가장 높은 행과 사건을 생성할 가능성이 가장 낮은 레코드의 순위를 얼마나 잘 지정하는지 측정합니다. 이 옵션은 이항 반응에만 사용할 수 있습니다.
  • 최소 오분류율: 오분류 비율을 최소화하는 모형에 대한 결과를 표시하려면 이 옵션을 선택합니다. 오분류 비율은 모형이 사례를 올바르게 또는 잘못 예측하는 빈도에 대한 단순 카운트를 기반으로 합니다. 다항 반응이 있는 기본값입니다.
최소 오분류율 및 이항 반응을 사용하여 결과 하위 대화 상자에서 사건 등급을 할당하는 방법을 선택합니다. 자세한 내용은 TreeNet® 분류를 통한 모형 적합 및 주요 예측 변수 검색에 대해 표시할 결과 선택(으)로 이동하십시오.
트리 수
빌드할 트리 수를 설정하려면 1과 5000 사이의 값을 입력합니다. 기본값 300은 유용한 초기 결과를 제공합니다.
선택한 초기 모형이 지정한 트리 수에 가까운 경우 더 나은 모형을 찾기 위해 트리 수를 늘릴지 여부를 고려합니다.
트리당 최대 터미널 노드 수최대 트리 깊이
트리 크기를 제한할 수도 있습니다. 트리 크기를 제한하려면 다음 중 하나를 선택합니다.
  • 트리당 최대 터미널 노드 수: 트리의 최대 단말 노드 수를 나타내는 2에서 2000 사이의 값을 입력합니다. 일반적으로 기본값 6은 계산 속도와 변수 간 교호작용 사이의 균형을 제공합니다. 2 값은 교호작용 조사를 제거합니다.
  • 최대 트리 깊이: 트리의 최대 깊이를 나타내는 2에서 1000 사이의 값을 입력합니다. 루트 노드는 깊이 1에 해당합니다. 기본 깊이는 4입니다. 많은 용도에서 4에서 6까지의 깊이는 합리적으로 좋은 모형을 제공합니다.
단말 노드에 허용되는 최소 사례 수
단말 노드에 대한 최소 사례 수를 입력합니다. 예를 들어 최소 크기가 3이고 분할이 사례가 3개 미만인 노드를 만드는 경우 Minitab은 분할을 수행하지 않습니다.
과적합 보호
다음 옵션을 사용하여 모형의 과도 적합을 최소화합니다.
학습 속도
학습 속도는 데이터에 대한 최적의 모형을 식별하도록 조정할 수 있는 매우 중요한 두 가지 초모수 중 하나입니다.
기본적으로 학습 데이터의 사례 수가 1000 이하인 경우 Minitab은 0.01을 학습 속도로 사용합니다. 사례가 1000개보다 많은 데이터 집합의 경우 기본 학습 속도는 max[0.01, 0.1 * min(1.0, N/10000)]입니다. 예를 들어 데이터 세트에 9000개의 반응이 있는 경우 학습 속도는 0.09입니다.
초기 모형이 데이터를 잘 예측하지 못하는 경우 학습 속도를 5배 또는 10배 늦추거나 높여 더 나은 모형을 얻을 수 있는지 확인하십시오.
하위 표본 선택 랜덤화
전체 학습 데이터 세트의 하위 표본에서 분석을 통해 각 트리를 빌드할지 또는 각 반응 수준 내 하위 표본에서 빌드할지 선택합니다.
  • 전체 데이터 집합 내: 전체 학습 데이터 세트에서 임의 표본을 선택합니다. 일반적으로 0.5가 적절합니다. 초기 모형이 데이터를 잘 적합하지 않는 경우 기본값 0.5에서 0.70 이상으로 일부를 늘리는 것이 좋습니다.
  • 각 반응 수준 내: 학습 데이터의 사건 등급 사례와 학습 데이터의 비사건 등급 사례에서 하위 표본을 추출합니다. 이 옵션을 사용하여 희귀 등급의 충분한 사례가 각 하위 표본에 있는지 확인할 수 있습니다. 등급이 충분히 드문 경우 1을 입력하여 모든 하위 표본에 모든 사례를 포함할 수 있습니다.
하위 표본 부분
학습 데이터의 비율을 지정하여 분석에서 각 트리를 빌드하도록 임의로 선택합니다. 일반적으로 0.5가 적절합니다. 초기 모형이 데이터를 잘 적합하지 않는 경우 기본값 0.5에서 0.70 이상으로 일부를 늘리는 것이 좋습니다.
노드 분할 예측 변수 수
각 노드 분할에 대해 고려해야 할 예측 변수 수를 지정합니다. 일반적으로 모든 노드의 예측 변수를 모두 고려할 때 분석이 잘 작동합니다. 그러나 일부 데이터 세트에는 분석이 각 노드에서 예측 변수의 다른 임의 하위 집합을 고려할 때 모형 성능이 향상되는 예측 변수 간의 연결이 있습니다. 이러한 경우 총 예측 변수 수의 제곱근은 일반적인 시작점입니다. 제곱근을 사용하고 모형을 본 후에는 전체의 백분율로 더 크거나 적은 수의 예측 변수를 지정할지 고려할 수 있습니다.
  • 전체 예측 변수 수: 노드 분할에 대한 모든 예측 변수를 사용하려면 선택합니다.
  • 총 예측 변수 수의 제곱근: 노드 분할에 대한 총 예측 변수 수의 제곱근을 사용하려면 선택합니다.
  • 총 예측 변수 수의 K%, K =: 노드 분할에 대한 예측 변수의 백분율을 사용하려면 선택합니다.
난수 생성기의 기준값
난수 생성기의 기준값을 지정하여 하위 표본과 예측 변수의 하위 집합을 임의로 선택할 수 있습니다. 일반적으로 기준값을 변경할 필요가 없습니다. 기준값을 변경하여 결과가 임의 선택에 얼마나 민감한지 살펴보거나 반복 분석에 대해 동일한 임의 선택을 보장할 수 있습니다.
가중치
사례 가중치가 포함된 열을 입력합니다. 열의 행 수는 반응 열의 행 수와 같아야 합니다. 값은 0 이상이어야 합니다. Minitab은 분석에서 결측값 또는 0을 포함하는 행을 생략합니다.