TreeNet® 분류를 통한 주요 예측 변수 검색에 대해 중요하지 않거나 중요한 예측 변수를 제거하여 모형 평가

모형 평가 표에 대한 정의 및 해석 지침을 찾습니다.
참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

참고

주요 예측 변수 검색에 대해 옵션을 지정할 때 학습 및 검정 데이터 모두에 대한 모형 선택 결과를 선택할 수 있습니다. 검정 결과는 모형이 새 관측치에 대한 반응 값을 적절하게 예측할 수 있는지 또는 반응과 예측 변수 간의 관계를 적절하게 요약할 수 있는지를 나타냅니다. 학습 결과는 일반적으로 참조용입니다.

결과를 사용하여 다른 단계의 모형을 비교합니다. 표에서 다른 모형을 더 자세히 탐색하려면 대체 모형 선택를 클릭합니다. Minitab은 대체 모형에 대한 전체 결과 집합을 생성합니다. 하이퍼파라미터를 조정하고 그에 따라 예측을 할 수 있습니다.

최적의 트리 수

최적의 트리 수는 일반적으로 각 단계에서 다릅니다. 최적의 숫자가 분석의 총 트리 수에 가까우면 모형이 개선될 가능성이 높습니다. 개선될 것으로 보이는 대체 모형을 더 탐색할지 여부를 고려할 수 있습니다.

평균 로그 우도

평균 로그 우도는 모형 정확도를 측정합니다. 값이 작을수록 더 잘 적합함을 나타냅니다.

반응이 이항일 때 최대 로그 우도를 최상의 모형 선택을 위한 기준으로 사용할 수 있습니다. 표를 따르는 전체 결과는 평균 로그 우도 중 가장 적은 값을 가진 모형에 대한 것입니다. 용어 수가 적은 모형에 최적 값에 가까운 평균 로그 우도가 있는 경우 대체 모형을 더 자세히 탐색할지 여부를 고려합니다. 예측 변수가 적은 모형은 해석하기가 더 쉬울 수 있으며 더 적은 수의 예측 변수로 작업할 수 있습니다.

ROC 곡선 아래 면적

ROC 곡선은 y축에 검정력이라고도 하는 진양성률(TPR)을 플로팅합니다. ROC 곡선은 x축에서 유형 1 오차라고도 하는 가양성률(FPR)을 표시합니다. ROC 곡선 아래 면적은 모형이 올바른 분류자인지 여부를 나타냅니다.

분류 트리의 경우 ROC 곡선 아래 면적 값 범위는 0.5에서 1 사이입니다. 값이 클수록 더 좋은 분류 모형을 나타냅니다. 이항 모형이 등급을 완벽하게 구분할 수 있는 경우 곡선 아래 면적은 1입니다. 이항 모형이 임의 할당보다 등급을 더 잘 구분할 수 없는 경우 곡선 아래 면적은 0.5입니다.

ROC 곡선 아래의 최대 면적을 최상의 모형 선택을 위한 기준으로 사용하는 경우 표에는 각 모형에 대한 ROC 곡선 아래 면적이 포함됩니다. 표를 따르는 전체 결과는 ROC 곡선 아래에 가장 큰 영역이 있는 모형에 대한 것입니다. 용어 수가 적은 모형에 최적 값에 가까운 값이 있는 경우 대체 모형을 더 자세히 탐색할지 여부를 고려합니다. 예측 변수가 적은 모형은 해석하기가 더 쉬울 수 있으며 더 적은 수의 예측 변수로 작업할 수 있습니다.

오분류 비율

오분류 비율은 모형이 반응 값을 정확하게 분류하는 빈도를 나타냅니다. 값이 작을수록 더 좋은 성능을 나타냅니다.

최소 오분류 비율을 최상의 모형 선택에 대한 기준으로 사용하는 경우 표에 각 모형에 대한 오분류 비율이 포함됩니다. 표를 따르는 전체 결과는 오분류 속도가 가장 적은 모형에 대한 것입니다. 용어 수가 적은 모형에 최적 값에 가까운 값이 있는 경우 대체 모형을 더 자세히 탐색할지 여부를 고려합니다. 예측 변수가 적은 모형은 해석하기가 더 쉬울 수 있으며 더 적은 수의 예측 변수로 작업할 수 있습니다.

예측 변수 카운트

예측 변수 카운트는 모형의 예측 변수 수입니다. 표의 첫 번째 행의 예측 변수 수는 항상 분석에서 고려하는 모든 예측 변수입니다. 첫 번째 행 이후에 예측 변수 수는 분석이 중요하지 않은 예측 변수 또는 중요한 예측 변수를 제거하는지 여부에 따라 달라집니다.

분석에서 가장 중요하지 않은 예측 변수를 제거하면 각 단계에서 예측 변수의 지정된 수와 중요도 점수가 0인 예측 변수 기준으로 예측 변수 수가 감소합니다. 예를 들어 분석이 단계당 10개의 예측 변수를 제거하고, 예측 변수가 900개, 초기 모형에서 중요도 점수가 0인 450개의 예측 변수가 있는 경우 표의 첫 번째 행에는 900개의 예측 변수가 있습니다. 분석에서 중요도 점수가 0이고 10개의 가장 중요하지 않은 예측 변수가 있는 450개의 예측 변수가 제거되기 때문에 두 번째 행에는 440개의 예측 변수가 있습니다.

분석에서 가장 중요한 예측 변수를 제거하면 각 단계에서 예측 변수의 지정된 수에 따라 예측 변수 수가 감소합니다. 중요도가 0인 예측 변수는 모형에 남아 있습니다.

제거된 예측 변수

열은 각 단계에서 제거된 예측 변수를 보여줍니다. 리스트에는 한 단계에서 예측 제목이 25개 표시됩니다. 첫 번째 행에는 모형에 모든 예측 변수가 있기 때문에 항상 "없음"이 표시됩니다. 첫 번째 행 이후에 예측 변수 수는 분석이 중요하지 않은 예측 변수 또는 중요한 예측 변수를 제거하는지 여부에 따라 달라집니다.

분석에서 가장 중요하지 않은 예측 변수를 제거하면 각 단계에서 예측 변수의 지정된 수와 중요도 점수가 0인 예측 변수 기준으로 예측 변수 수가 감소합니다. 분석에서 중요도 점수가 0인 예측 변수를 제거하면 해당 예측 변수가 리스트에서 맨 앞 순서입니다. 분석에서 어느 범주에서 둘 이상의 예측 변수를 제거하면 이름의 순서는 워크시트의 예측 변수 순서입니다.

분석에서 가장 중요한 예측 변수를 제거하면 리스트에 각 단계에서 제거된 예측 변수가 표시됩니다. 분석이 한 단계에서 두 개 이상의 중요한 예측 변수를 제거하면 리스트의 이름 순서가 워크시트의 예측 변수 순서입니다.