TreeNet® 분류를 통한 모형 적합주요 예측 변수 검색에 대해 평가할 하이퍼파라미터 값 선택

예측 분석 모듈 > TreeNet® 분류 > 적합 모델을 실행합니다. 결과에서하이퍼파라미터 튜닝 버튼을 클릭합니다.

예측 분석 모듈 > TreeNet® 분류 > 주요 예측 분석 검색을 실행합니다. 결과에서하이퍼파라미터 튜닝 버튼을 클릭합니다.

개요

TreeNet® 모형의 성능은 일반적으로 학습 속도, 하위 표본 부분 및 모형을 형성하는 개별 트리의 복잡성에 민감합니다. 모형의 결과에서 하이퍼파라미터 튜닝을(를) 클릭하여 이러한 하이퍼파라미터의 여러 값을 평가하여 평균 로그 우도와 같은 정확도 기준의 최상의 값을 생성하는 조합을 알아보십시오. 이러한 하이퍼파라미터의 더 나은 값은 예측 정확도를 크게 향상시킬 수 있으므로 다양한 값을 탐색하는 것이 분석에서 일반적인 단계입니다.

모형에 포함된 트리 수를 조정할 수도 있습니다. 일반적으로 300개의 트리는 하이퍼파라미터의 값을 구분하기에 충분합니다. 일반적으로 하나 이상의 관심 모형에 대한 최적의 트리 수가 최대 트리 수에 가까울 때 트리 수를 늘립니다. 트리 수가 최대 수에 가까워지면 트리 수가 증가하여 모형의 성능을 향상시킬 가능성이 더 높아집니다.

보호 모호 과대 적합

각 하이퍼파라미터에 대해 하나 이상의 값을 지정합니다. 분석은 하이퍼파라미터를 평가하여 정확도 기준의 최상의 값과의 조합을 찾습니다. 하이퍼파라미터에 대한 값을 입력하지 않으면 평가는 결과의 모형에서 해당 하이퍼파라미터에 대한 값을 사용합니다. 반응이 이항이고 원래 모형이 표본에 대한 사건 및 비사건의 비율을 지정하는 경우 평가는 항상 원래 모형의 비율을 사용합니다.

학습 속도

최대 10개의 값을 입력합니다. 적합한 값의 범위는 0.0001에서 1까지입니다.

하위 표본 부분

최대 10개의 값을 입력합니다. 적합한 값은 0보다 크고 1보다 작거나 같습니다.

하위 표본 부분 원래 모형이 이항 반응을 위해 샘플링할 사건 및 비사건의 비율을 지정할 때 비활성화됩니다.

개별 트리 복잡성 모호

최대 단말 노드 또는 최대 트리 깊이을(를) 평가할지 여부를 선택합니다. 일반적으로 두 선택 중 하나는 유용한 모형을 식별하는 합리적인 방법이며 선택은 개별 기본 설정에만 따라 달라집니다.
최대 단말 노드
최대 3개의 값을 입력합니다. 적합한 값은 2에서 2000 사이입니다. 일반적으로 기본값 6은 계산 속도와 변수 간 교호작용 사이의 균형을 제공합니다. 2 값은 교호작용 조사를 제거합니다.
최대 트리 깊이
최대 3개의 값을 입력합니다. 적합한 값은 트리의 최대 깊이를 나타내는 2에서 1000 사이입니다. 루트 노드는 깊이 1에 해당합니다. 많은 용도에서 4에서 6까지의 깊이는 합리적으로 좋은 모형을 제공합니다.

트리 수

빌드할 최대 트리 수를 지정하려면 1과 5000 사이의 값을 입력합니다. 기본 값 300은 일반적으로 하이퍼파라미터 값의 평가에 유용한 결과를 제공합니다.

하나 이상의 관심 모형에 지정한 트리 수에 가까운 여러 개의 트리가 있는 경우 트리 수를 늘릴지 여부를 고려합니다. 트리 수가 최대 수에 가까워지면 트리 수가 증가하여 모형의 성능을 향상시킬 가능성이 더 높아집니다.

완전한 모호 조합 평가

두 개 이상의 하이퍼파라미터에 대한 값을 지정하는 경우 평가 표의 모형은 하이퍼파라미터의 전체 조합을 평가하는지 여부에 따라 달라집니다.
  • 완전한 모호 조합 평가을(를) 선택하는 경우, 알고리즘은 하이퍼파라미터의 모든 조합을 평가합니다. 이 옵션은 일반적으로 계산하는 데 시간이 더 오래 걸립니다.
  • 그렇지 않으면 알고리즘은 이 순서로 하이퍼파라미터를 평가합니다.
    1. 학습 속도
    2. 하위 표본 부분
    3. 개별 트리 복잡성 모호
    예를 들어 알고리즘이 다음과 같은 하이퍼파라미터를 수신한다고 가정합니다.
    • 학습 속도: 0.001, 0.01, 0.1
    • 하위 표본 부분: 0.4, 0.5, 0.7
    • 최대 단말 노드 수 4, 6
    1. 알고리즘은 하위 표본 비율을 0.4로 설정하고 단말 노드의 최대 수를 4로 설정합니다. 그런 다음 알고리즘은 학습 속도를 최소에서 최대로 평가합니다. 0.001, 0.01, 0.1.
    2. 알고리즘이 0.01을 최상의 학습 속도로 식별한다고 가정합니다. 그런 다음 알고리즘은 학습 속도를 0.01로 설정하고 단말 노드의 최대 수를 4로 설정합니다. 그런 다음 알고리즘은 0.4, 0.5 및 0.7의 하위 표본 비율을 평가합니다.
    3. 알고리즘이 0.5를 가장 적합한 하위 표본 비율로 식별한다고 가정합니다. 그런 다음 알고리즘은 학습 속도를 0.01로 설정하여 하위 표본 비율을 0.5로 설정합니다. 그런 다음 알고리즘은 최대 노드 수를 4와 6으로 평가합니다.
    4. 알고리즘이 6을 가장 최대 단말 노드 수로 식별한다고 가정합니다. 그런 다음 Minitab은 학습 속도 = 0.01, 하위 표본 비율 0.5 및 단말 노드 6의 최대 수와 모형에 대한 평가 표 및 결과를 생성합니다.

    이 예에서는 파라미터 조합의 전체 집합을 평가하지 않는 분석은 평가 표에 8개의 모형을 포함합니다. 모든 파라미터 조합의 분석에는 3 × 3 × 2 = 18개의 조합이 있으며 계산하는 데 시간이 더 오래 걸립니다.

결과 표시

검토할 값을 지정한 후 결과 표시을(를) 클릭합니다. 새로운 결과 집합에서 Minitab은 하이퍼파라미터 조합의 정확도 기준과 모형의 결과를 정확도 기준의 최상의 값과 비교하는 표를 생성합니다.

Minitab은 원래 모형과 동일한 새 모형에 대한 표와 그래프를 다시 생성합니다. 새 모형의 표와 그래프는 새로운 결과 집합에 있습니다. 저장소는 원래 분석과 동일합니다. 저장소 열은 동일한 워크시트에 있습니다. 예를 들어 원래 분석이 "Fit"이라는 제목의 열에 적합치를 저장한 다음 새 분석이 빈 열 "Fit_1"을 제목으로 지정하고 적합치를 저장합니다.