TreeNet® 분류를 통한 모형 적합주요 예측 변수 검색에 대한 하이퍼파라미터의 최적화

모형 평가 표에 대한 정의 및 해석 지침을 찾습니다.
참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

결과를 사용하여 하이퍼파라미터에 대해 모형이 다른 설정으로 얼마나 잘 수행되는지 비교합니다. 하이퍼파라미터 튜닝을(를) 클릭하여 하이퍼파라미터의 추가 값을 평가합니다.

최적의 트리 수

최적의 트리 수는 일반적으로 각 단계에서 다릅니다. 최적의 수가 분석의 최대 트리 수에 가까울 때 최대 수와 멀리 떨어진 최적의 트리 수를 가진 모형보다 트리 수를 늘리면 모형이 개선될 가능성이 높습니다. 개선될 것으로 보이는 대체 모형을 더 탐색할지 여부를 고려할 수 있습니다.

평균 로그 우도

평균 –로그 우도는 모형 정확도의 측정입니다. 값이 작을수록 더 잘 적합함을 나타냅니다.

반응이 이항일 때 최대 로그 우도를 최상의 모형 선택을 위한 기준으로 사용할 수 있습니다. 표를 따르는 전체 결과는 평균 로그 우도 중 가장 적은 값을 가진 모형에 대한 것입니다.

ROC 곡선 아래 면적

ROC 곡선은 y축에 검정력이라고도 하는 진양성률(TPR)을 플로팅합니다. ROC 곡선은 x축에서 유형 1 오차라고도 하는 가양성률(FPR)을 표시합니다. ROC 곡선 아래 면적은 모형이 올바른 분류자인지 여부를 나타냅니다.

분류 트리의 경우 ROC 곡선 아래 면적 값 범위는 0.5에서 1 사이입니다. 값이 클수록 더 좋은 분류 모형을 나타냅니다. 이항 모형이 등급을 완벽하게 구분할 수 있는 경우 곡선 아래 면적은 1입니다. 이항 모형이 임의 할당보다 등급을 더 잘 구분할 수 없는 경우 곡선 아래 면적은 0.5입니다.

ROC 곡선 아래의 최대 면적을 최상의 모형 선택을 위한 기준으로 사용하는 경우 표에는 각 모형에 대한 ROC 곡선 아래 면적이 포함됩니다. 표를 따르는 전체 결과는 ROC 곡선 아래에 가장 큰 영역이 있는 모형에 대한 것입니다.

오분류 비율

오분류 비율은 모형이 반응 값을 정확하게 분류하는 빈도를 나타냅니다. 값이 작을수록 더 좋은 성능을 나타냅니다.

최소 오분류 비율을 최상의 모형 선택에 대한 기준으로 사용하는 경우 표에 각 모형에 대한 오분류 비율이 포함됩니다. 표를 따르는 전체 결과는 오분류 속도가 가장 적은 모형에 대한 것입니다.

학습 속도

낮은 학습률은 모형에 있는 각 새 트리의 가중치가 더 높은 학습률보다 적으며 때로는 모형에 대해 더 많은 트리를 생성합니다. 학습률이 낮은 모형은 학습 데이터 집합에 과다 적합될 확률이 낮습니다. 학습률이 낮은 모형은 일반적으로 더 많은 트리를 사용하여 최적의 트리 수를 찾습니다.

하위 표본 부분

하위 표본 부분은 분석이 각 트리를 빌드하는 데 사용하는 데이터 비율입니다.

트리당 최대 단말 노드 수

TreeNet® 분류에서는 수많은 작은 CART® 트리를 강력한 모형으로 결합합니다. 표에는 트리당 최대 단말 노드 수 또는 최대 트리 깊이가 분석에 있는 하이퍼파라미터가 포함됩니다. 단말 노드가 더 많은 트리는 보다 복잡한 교호작용을 모델링할 수 있습니다. 일반적으로 값이 12를 초과하면 모형에 큰 이점 없이 분석이 느려질 수 있습니다.

최대 트리 깊이

TreeNet® 분류에서는 수많은 작은 CART® 트리를 강력한 모형으로 결합합니다. 이러한 작은 CART® 트리에 대해 단말 노드의 최대 수 또는 최대 트리 깊이를 지정할 수 있습니다. 더 깊은 트리는 더 복잡한 교호작용을 모델링할 수 있습니다. 4에서 6까지의 값은 많은 데이터 집합에 적합합니다.