기준을 선택하여 최상의 모델을 결정하고 다양한 모델 유형에 대한 옵션을 지정합니다. 난수 생성기의 기준을 지정할 수도 있습니다.

최고의 모형을 선택하는 기준

기준을 선택하여 최상의 모델 유형을 결정합니다. 여러 방법의 결과를 비교하여 용도에 가장 적합한 선택을 결정할 수 있습니다.
  • 최대 R-제곱: 기본 방법은 많은 응용 프로그램에서 잘 작동합니다. 이 방법은 오차 제곱의 합을 최소화합니다.
  • 최소 평균 절대 편차: 이 방법은 오류의 절대 값의 합계를 최소화합니다.

TreeNet® 회귀 모형에 맞게 스위칭 값 K와 후버 손실 함수를 사용: K =

Huber 함수는 최대 R-제곱 함수와 최소 평균 절대 편차 함수의 하이브리드입니다. Huber 함수를 사용하여 전환 값을 지정합니다. 손실 함수는 제곱 오차로 시작됩니다. 손실 함수는 값이 전환 값보다 작은 한 제곱 오차로 유지됩니다. 제곱 오차가 전환 값을 초과하면 손실 함수가 절대 편차가 됩니다. 절대 편차가 전환 값보다 적으면 손실 함수가 다시 제곱 오차가 됩니다..

TreeNet® 회귀 모형에 대한 옵션

TreeNet® 모델에 대한 옵션을 지정합니다.

트리 수
빌드할 트리 수를 설정하려면 1과 5000 사이의 값을 입력합니다. 기본값 300은 유용한 초기 결과를 제공합니다.
선택한 초기 모형이 지정한 트리 수에 가까운 경우 더 나은 모형을 찾기 위해 트리 수를 늘릴지 여부를 고려합니다.
트리당 최대 터미널 노드 수최대 트리 깊이
트리 크기를 제한할 수도 있습니다. 트리 크기를 제한하려면 다음 중 하나를 선택합니다.
  • 트리당 최대 터미널 노드 수: 트리의 최대 단말 노드 수를 나타내는 2에서 2000 사이의 값을 입력합니다. 일반적으로 기본값 6은 계산 속도와 변수 간 교호작용 사이의 균형을 제공합니다. 2 값은 교호작용 조사를 제거합니다.
  • 최대 트리 깊이: 트리의 최대 깊이를 나타내는 2에서 1000 사이의 값을 입력합니다. 루트 노드는 깊이 1에 해당합니다. 기본 깊이는 4입니다. 많은 용도에서 4에서 6까지의 깊이는 합리적으로 좋은 모형을 제공합니다.
학습 속도
최대 10개의 학습률을 지정합니다.
기본적으로 분석은 3개의 학습률을 평가합니다. 분석은 일반적으로 3개의 K 값으로 하이퍼파라미터를 조정합니다. 0.001, 0.1 및 max(0.01, 0.1 * min(1.0, N/10000)), 여기서 N = 응답 열의 행 수입니다. max(0.01, 0.1 * min(1.0, N/10000)) = 0.001 또는 0.1이면 하이퍼파라미터를 0.001, 0.01 및 0.1로 조정합니다.
하위 표본 부분
최대 10개의 하위 표본 분획을 지정합니다. 각 반복에서 프로시저는 트리를 구성할 데이터의 이 부분을 포함하는 다른 하위 집합을 선택합니다. 서브샘플링은 과적합으로부터 보호합니다. 하위 표본 분획은 0보다 크고 1보다 작거나 같아야 합니다. 기본값은 0.5와 0.7입니다.
노드 분할 예측 변수 수
각 노드 분할에 대해 고려해야 할 예측 변수 수를 지정합니다. 일반적으로 모든 노드의 예측 변수를 모두 고려할 때 분석이 잘 작동합니다. 그러나 일부 데이터 세트에는 분석이 각 노드에서 예측 변수의 다른 임의 하위 집합을 고려할 때 모형 성능이 향상되는 예측 변수 간의 연결이 있습니다. 이러한 경우 총 예측 변수 수의 제곱근은 일반적인 시작점입니다. 제곱근을 사용하고 모형을 본 후에는 전체의 백분율로 더 크거나 적은 수의 예측 변수를 지정할지 고려할 수 있습니다.
  • 전체 예측 변수 수: 노드 분할에 대한 모든 예측 변수를 사용하려면 선택합니다.
  • 총 예측 변수 수의 제곱근: 노드 분할에 대한 총 예측 변수 수의 제곱근을 사용하려면 선택합니다.
  • 총 예측 변수 수의 K%, K =: 노드 분할에 대한 예측 변수의 백분율을 사용하려면 선택합니다.

Random Forests® 회귀 모형에 대한 옵션

Random Forests® 모델에 대한 옵션을 지정합니다.

트리를 키울 부트스트랩 표본 수
값을 입력하여 부트스트랩 표본 수와 분석에서 생성된 트리 수를 결정합니다. 3에서 3000 사이의 값을 입력합니다.
학습 데이터 크기보다 작은 부트스트랩 표본 크기 지정
부트스트랩 표본 크기를 설정하는 값을 입력하려면 선택합니다. 5보다 크거나 같은 값을 입력해야 합니다. 학습 데이터 크기보다 큰 크기를 입력하면 Minitab은 학습 데이터 크기와 동일한 표본 크기를 사용합니다.
노드 분할 예측 변수 수
각 노드 분할에 대해 고려해야 할 예측 변수 수를 지정합니다. 일반적으로 총 예측 변수 수의 제곱근을 고려할 때 분석이 잘 작동합니다. 그러나 일부 데이터 세트에는 분석이 각 노드에서 예측 변수의 다른 임의 하위 집합을 고려할 때 모형 성능이 향상되는 예측 변수 간의 연결이 있습니다. 제곱근을 사용하고 모형을 본 후에는 모형의 성능을 향상시키기 위해 예측 변수 수를 변경할지 여부를 고려합니다.
  • 전체 예측 변수 수: 노드 분할에 대한 모든 예측 변수를 사용하려면 선택합니다. 이 옵션에서 만든 포리스트를 부트스트랩 포리스트라고 합니다.
  • 총 예측 변수 수의 제곱근: 노드 분할에 대한 총 예측 변수 수의 제곱근을 사용하려면 선택합니다.
  • 총 예측 변수 수의 K%, K =: 노드 분할에 대한 예측 변수의 백분율을 사용하려면 선택합니다.
내부 노드를 분할하는 최소 사례 수
1에서 3까지의 최소 숫자를 지정합니다. 기본적으로 분석은 2, 5 및 8을 평가합니다. 숫자가 2이면 다른 분할이 불가능할 때까지 모든 노드를 더 작은 노드로 분할할 수 있습니다. 모델 성능이 부적절하면 성능에 미치는 영향을 확인하기 위해 다른 값을 시도할지 여부를 고려하십시오.

CART® 회귀 모형에 대한 옵션

CART® 모델에 대한 옵션을 지정합니다.

최적의 트리 선택 기준
이러한 기준 중에서 선택하여 결과에 트리를 생성합니다. 여러 트리의 결과를 비교하여 용도에 가장 적합한 선택을 결정할 수 있습니다.
최대 R-제곱의 K 표준 오차 이내, K=
Minitab이 최대 R2 결정계수 값을 가진 트리의 K 표준 오차 내에 속하는 R2 결정계수 값을 가진 가장 작은 트리를 선택하도록 하려면 이 옵션을 선택합니다. 기본적으로 K=1이므로, 결과의 트리는 최대 R2 결정계수 값의 1 표준 오차 내의 R2 결정계수 값을 가진 가장 작은 분류 트리입니다.
최대 R-제곱
최대 결정계수 값을 가진 트리의 결과를 표시하려면 이 옵션을 선택합니다.
내부 노드를 분할하는 최소 사례 수
노드가 가질 수 있고 더 많은 노드로 분할될 수 있는 최소 사례 수를 입력합니다. 기본값은 10입니다. 표본 크기가 클수록 최소값을 늘릴 수 있습니다. 예를 들어 내부 노드에 10개 이상의 사례가 있는 경우 Minitab은 분할을 수행하려고 시도합니다. 내부 노드에 9개 이하의 사례가 있는 경우 Minitab은 분할을 수행하지 않습니다.
내부 노드 제한은 값이 터미널 노드 제한의 두 배 이상인 경우에만 관련이 있습니다. 터미널 노드 제한의 최소 3배인 내부 노드 제한은 적절한 수의 분할자를 허용합니다. 일반적으로 더 큰 데이터 집합에는 더 큰 제한이 적합합니다.
단말 노드에 허용되는 최소 사례 수
터미널 노드에 있을 수 있는 최소 사례 수를 입력합니다. 기본값은 3입니다. 표본 크기가 클수록 최소값을 늘릴 수 있습니다. 예를 들어 분할이 사례가 3개 미만인 노드를 만드는 경우 Minitab은 분할을 수행하지 않습니다.

CART® 회귀 모형에 대한 옵션

MARS® 모델에 대한 옵션을 지정합니다.

최대 기본 함수 수
기본값 30은 대부분의 경우에 잘 작동합니다. 30개의 기저 함수가 데이터에 비해 너무 작아 보이는 경우 더 큰 값을 고려하십시오. 예를 들어, 30개 이상의 예측 변수가 중요하다고 생각되는 경우 더 큰 값을 고려하십시오.
30이면 충분한지 확실하지 않은 경우 초기 결과를 검토합니다. 예를 들어, 분석에서 기저 함수를 추가함에 따라 R-제곱 값이 위쪽으로 추세를 보이는 경우 값이 클수록 모형의 적합도가 향상될 가능성이 더 높습니다.
매듭 사이의 최소 관측치 수
MARS가® 선택하도록 허용
분석에서는 표본 크기와 모형 복잡도를 사용하여 값을 자동으로 선택합니다. 자동 값은 대부분의 경우 잘 작동합니다.
사용자 정의 λ
값 1은 연속 데이터 요소가 기저 함수가 변경되는 점이 될 수 있음을 나타냅니다. 값 1은 모델 예측에서 가장 빠른 변경을 허용합니다. 모형의 적합치에 미치는 영향을 확인하기 위해 다른 값을 고려하십시오. 예를 들어 일부 데이터의 경우 값이 클수록 학습 데이터에 과적합될 가능성이 적은 더 부드러운 모델이 생성됩니다. 이러한 부드러운 모델은 때때로 데이터의 특정 범위에서 덜 정확합니다.
허용된 예측 변수 상호 작용

예측자 상호 작용을 지정한 순서까지 허용합니다. 교호작용은 예측 변수의 효과가 다른 예측 변수의 값에 따라 달라진다는 것을 의미합니다. 예를 들어, 오븐에서 곡물이 건조되는 속도는 오븐에서의 시간에 따라 다르지만 시간의 영향은 오븐의 온도에 따라 다릅니다. 시간 변수와 온도 변수가 상호 작용합니다.

교호작용을 허용하지 않음(가산 모형)
예측 변수 교호작용을 허용하지 마십시오. 이 경우 Minitab에서는 기저 함수가 상호 작용하지 않는 가산 모형을 사용합니다.
모든 상호 작용을 최대 순서 2까지 허용
Order는 기저 함수에 포함될 수 있는 여러 예측 변수의 수를 지정합니다. 예를 들어, 차수가 2이면 예측 변수의 효과가 다른 예측 변수 1개의 값에 따라 달라질 수 있다는 것을 나타냅니다. 다음 기본 함수는 차수 2의 교호작용의 예입니다.
  • BF1 = 최대 (0, X1 − 800)
  • BF2 = 최대 (0, X2 − 50) * BF1

난수 생성기의 기준값

난수 생성기의 기준값을 지정하여 하위 표본과 예측 변수의 하위 집합을 임의로 선택할 수 있습니다. 일반적으로 기준값을 변경할 필요가 없습니다. 기준값을 변경하여 결과가 임의 선택에 얼마나 민감한지 살펴보거나 반복 분석에 대해 동일한 임의 선택을 보장할 수 있습니다.