최고의 모형 검색(이항 반응) 에 대한 옵션 선택

예측 분석 모듈 > 자동화된 기계 학습 > 최고의 모형 검색(이항 반응) > 옵션
참고

이 명령은 에서 사용할 수 있습니다 예측 분석 모듈. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

조건을 선택하여 최상의 모델을 결정하고 다른 모델 유형에 대한 옵션을 지정합니다. 난수 생성기와 이벤트 클래스에 예측을 할당할 시기의 베이스를 지정할 수도 있습니다.

최고의 모형을 선택하는 기준

최적 모형을 생성할 방법을 선택합니다. 여러 방법의 결과를 비교하여 용도에 가장 적합한 선택을 결정할 수 있습니다.
  • 최대 로그 우도: 최대우도법은 데이터에 대한 최대우도법 함수를 찾습니다.
  • ROC 곡선 아래의 최대 면적: ROC 곡선 아래의 최대 영역 방법은 많은 응용 프로그램에서 잘 작동합니다. ROC 곡선 아래의 영역은 모형이 사건을 생성할 가능성이 가장 높은 행과 사건을 생성할 가능성이 가장 낮은 레코드의 순위를 얼마나 잘 지정하는지 측정합니다.
  • 최소 오분류율: 오분류 비율을 최소화하는 모형에 대한 결과를 표시하려면 이 옵션을 선택합니다. 오분류 비율은 모형이 사례를 올바르게 또는 잘못 예측하는 빈도에 대한 단순 카운트를 기반으로 합니다.

TreeNet® 분류 모형에 대한 옵션

TreeNet® 모델에 대한 옵션을 지정합니다.

트리 수
빌드할 트리 수를 설정하려면 1과 5000 사이의 값을 입력합니다. 기본값 300은 유용한 초기 결과를 제공합니다.
선택한 초기 모형이 지정한 트리 수에 가까운 경우 더 나은 모형을 찾기 위해 트리 수를 늘릴지 여부를 고려합니다.
트리당 최대 터미널 노드 수최대 트리 깊이
트리 크기를 제한할 수도 있습니다. 트리 크기를 제한하려면 다음 중 하나를 선택합니다.
  • 트리당 최대 터미널 노드 수: 트리의 최대 단말 노드 수를 나타내는 2에서 2000 사이의 값을 입력합니다. 일반적으로 기본값 6은 계산 속도와 변수 간 교호작용 사이의 균형을 제공합니다. 2 값은 교호작용 조사를 제거합니다.
  • 최대 트리 깊이: 트리의 최대 깊이를 나타내는 2에서 1000 사이의 값을 입력합니다. 루트 노드는 깊이 1에 해당합니다. 기본 깊이는 4입니다. 많은 용도에서 4에서 6까지의 깊이는 합리적으로 좋은 모형을 제공합니다.
학습 속도
최대 10개의 학습 률을 지정합니다.
기본적으로 분석은 3개의 학습 률을 평가합니다. 분석은 일반적으로 하이퍼 매개 변수를 K값 3값으로 조정합니다. 0.001, 0.1 및 최대(0.01, 0.1 * 최소(1.0, N/10000)), 응답 열의 N = 행 수입니다. 최대(0.01, 0.1 * 최소(1.0, N/10000)) = 0.001 또는 0.1의 경우 분석은 하이퍼파라미터를 0.001, 0.01 및 0.1로 조정합니다.
하위 표본 부분
최대 10개의 하위 샘플 분획을 지정합니다. 각 반복에서 프로시저에서는 트리를 구성하는 데이터의 이 부분을 포함하는 다른 하위 집합을 선택합니다. 서브샘플링은 오버피팅으로부터 보호합니다. 0보다 크고 1보다 작거나 같은 숫자를 입력하십시오. 일반적인 값은 0.5과 0.7입니다.
노드 분할 예측 변수 수
각 노드 분할에 대해 고려해야 할 예측 변수 수를 지정합니다. 일반적으로 모든 노드의 예측 변수를 모두 고려할 때 분석이 잘 작동합니다. 그러나 일부 데이터 세트에는 분석이 각 노드에서 예측 변수의 다른 임의 하위 집합을 고려할 때 모형 성능이 향상되는 예측 변수 간의 연결이 있습니다. 이러한 경우 총 예측 변수 수의 제곱근은 일반적인 시작점입니다. 제곱근을 사용하고 모형을 본 후에는 전체의 백분율로 더 크거나 적은 수의 예측 변수를 지정할지 고려할 수 있습니다.
  • 전체 예측 변수 수: 노드 분할에 대한 모든 예측 변수를 사용하려면 선택합니다.
  • 총 예측 변수 수의 제곱근: 노드 분할에 대한 총 예측 변수 수의 제곱근을 사용하려면 선택합니다.
  • 총 예측 변수 수의 K%, K =: 노드 분할에 대한 예측 변수의 백분율을 사용하려면 선택합니다.

Random Forests® 분류 모형에 대한 옵션

임의 포리스트® 모델에 대한 옵션을 지정합니다.

트리를 키울 부트스트랩 표본 수
값을 입력하여 부트스트랩 표본 수와 분석에서 생성된 트리 수를 결정합니다. 3에서 3000 사이의 값을 입력합니다.
학습 데이터 크기보다 작은 부트스트랩 표본 크기 지정
부트스트랩 표본 크기를 설정하는 값을 입력하려면 선택합니다. 5보다 크거나 같은 값을 입력해야 합니다. 학습 데이터 크기보다 큰 크기를 입력하면 Minitab은 학습 데이터 크기와 동일한 표본 크기를 사용합니다.
노드 분할 예측 변수 수
각 노드 분할에 대해 고려해야 할 예측 변수 수를 지정합니다. 일반적으로 총 예측 변수 수의 제곱근을 고려할 때 분석이 잘 작동합니다. 그러나 일부 데이터 집합에는 분석이 각 노드에 대해 더 크거나 적은 수의 예측 변수를 고려할 때 모형 성능이 향상되는 예측 변수 간에 연결이 있습니다. 제곱근을 사용하고 모형을 본 후에는 모형의 성능을 향상시키기 위해 예측 변수 수를 변경할지 여부를 고려합니다.
  • 전체 예측 변수 수: 노드 분할에 대한 모든 예측 변수를 사용하려면 선택합니다. 이 옵션에서 만든 포리스트를 부트스트랩 포리스트라고 합니다.
  • 총 예측 변수 수의 제곱근: 노드 분할에 대한 총 예측 변수 수의 제곱근을 사용하려면 선택합니다.
  • 총 예측 변수 수의 K%, K =: 노드 분할에 대한 예측 변수의 백분율을 사용하려면 선택합니다.
내부 노드를 분할하는 최소 사례 수
최소 1개에서 3개까지 지정합니다. 기본적으로 분석은 2, 5 및 8을 평가합니다. 기본값은 2이므로 다른 분할이 불가능할 때까지 모든 노드를 더 작은 노드로 분할할 수 있습니다. 모형 성능이 부족한 경우 이 값을 변경하여 성능에 미치는 영향을 볼지 여부를 고려합니다.

CART® 분류 모형에 대한 옵션

CART® 모델에 대한 옵션을 지정합니다.

노드 분할 방법
분할 방법을 선택하여 의사 결정 트리를 생성합니다. 여러 분할 방법의 결과를 비교하여 용도에 가장 적합한 선택을 결정할 수 있습니다.
  • 지니: 지니 방법이 기본 방법입니다. 지니 방법은 많은 용도에서 잘 작동합니다. 지니 방법은 일반적으로 관심 반응의 높은 농도와 작은 노드를 포함하는 트리를 생성합니다.
  • 엔트로피: 엔트로피 방법은 노드에 대한 특정 우도 함수의 최대값에 비례합니다.
최적의 트리 선택 기준
다음 기준 중에서 선택하여 결과에서 트리를 선택합니다. 다른 트리의 결과를 비교하여 용도에 가장 적합한 선택을 결정할 수 있습니다.
  • 최소 오분류 비용: 오분류 비용을 최소화하는 트리에 대한 결과를 표시하려면 이 옵션을 선택합니다.
  • 최소 오분류 비용의 K 표준 오차 이내; K=: 최소 오분류 비용의 K 표준 오차 내에서 오분류 비용이 있는 가장 작은 트리에 대한 결과를 표시하려면 이 옵션을 선택합니다.
내부 노드를 분할하는 최소 사례 수
노드가 가질 수 있고 더 많은 노드로 분할될 수 있는 최소 사례 수를 입력합니다. 기본값은 10입니다. 표본 크기가 클수록 최소값을 늘릴 수 있습니다. 예를 들어 내부 노드에 10개 이상의 사례가 있는 경우 Minitab은 분할을 수행하려고 시도합니다. 내부 노드에 9개 이하의 사례가 있는 경우 Minitab은 분할을 수행하지 않습니다.
내부 노드 제한은 값이 터미널 노드 제한의 두 배 이상인 경우에만 관련이 있습니다. 터미널 노드 제한의 3배 이상인 내부 노드 제한은 적당한 수의 분할을 허용합니다. 일반적으로 더 큰 데이터 집합에 대해 더 큰 제한이 합리적입니다.
단말 노드에 허용되는 최소 사례 수
터미널 노드에 있을 수 있는 최소 사례 수를 입력합니다. 기본값은 3입니다. 표본 크기가 클수록 최소값을 늘릴 수 있습니다. 예를 들어 분할이 사례가 3개 미만인 노드를 만드는 경우 Minitab은 분할을 수행하지 않습니다.

난수 생성기의 기준값

난수 생성기의 기준값을 지정하여 하위 표본과 예측 변수의 하위 집합을 임의로 선택할 수 있습니다. 일반적으로 기준값을 변경할 필요가 없습니다. 기준값을 변경하여 결과가 임의 선택에 얼마나 민감한지 살펴보거나 반복 분석에 대해 동일한 임의 선택을 보장할 수 있습니다.

사건 등급 할당

사건 등급에 사례를 할당할 최소 예측 확률을 지정합니다. 이 옵션은 TreeNet® 모델 및 이진 로지스틱 회귀 모델에 영향을 줍니다.

  • 사건 확률은 지정된 값을 초과합니다: 사건 등급에 사례를 할당할 최소 예측 확률을 지정합니다. 예를 들어 값이 0.5인 경우 사건 확률이 0.5보다 높을 때 Minitab이 사건 등급에 사례를 할당한다는 것을 의미합니다.
  • 사건 확률은 표본 사건 비율을 초과합니다: 학습 데이터의 표본 사건 비율을 분계점으로 사용하여 사례에 대한 예측된 등급을 할당하도록 지정합니다. 표본 사건 비율이 0.50보다 클 경우 이 옵션을 사용하면 사건이 사건으로 분류될 가능성이 낮아지고 비사건으로 분류될 가능성이 높아집니다. 일반적으로 분계점 0.50과 비교하여 사건 및 비사건의 오분류 비율의 균형을 맞추려는 경우 이 옵션을 고려합니다.