TreeNet® 분류를 통한 모형 적합주요 예측 변수 검색에 대한 모형 요약 표

참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

모형 요약 표에 대한 정의 및 해석 지침을 찾습니다.
참고

Minitab은 학습 및 검정 데이터 집합 모두에 대한 결과를 표시합니다. 검정 결과는 모형이 새 관측치에 대한 반응 값을 적절하게 예측할 수 있는지 또는 반응과 예측 변수 간의 관계를 적절하게 요약할 수 있는지를 나타냅니다. 학습 결과를 사용하여 모형의 과도 적합을 평가합니다.

총 예측 변수

TreeNet® 모형에 사용할 수 있는 총 예측 변수 수입니다. 합계는 지정한 계량형 및 범주형 예측 변수의 합계입니다.

중요한 예측 변수

TreeNet® 모형의 중요한 예측 변수 수입니다. 중요 예측 변수는 0보다 중요도 점수가 높습니다. 상대 변수 중요도 차트를 사용하여 상대 변수 중요도의 순서를 표시할 수 있습니다. 예를 들어 20개의 예측 변수 중 10개가 모형에서 중요하다고 가정하면 상대 변수 중요도 차트는 변수를 중요도 순서대로 표시합니다.

성장한 트리 수

기본적으로 Minitab은 300개의 작은 CART® 트리를 성장시켜 TreeNet® 모형을 생성합니다. 이 값은 데이터 탐색에 적합하지만 최종 모형을 생성하기 위해 더 많은 트리를 성장시킬지 여부를 고려하십시오. 성장한 트리 수를 변경하려면 옵션 하위 대화 상자로 이동합니다.

최적의 트리 수

최적의 트리 수는 평균 음수 로그 우도 또는 오분류 비율의 가장 낮은 값 또는 ROC 곡선 아래 면적의 가장 높은 값에 해당합니다.

최적의 트리 수가 모형이 성장하는 최대 트리 수에 가까우면 더 많은 트리를 사용하는 분석을 고려하십시오. 따라서 300개의 트리를 키우고 최적의 숫자가 298로 돌아오면 더 많은 트리를 사용하여 모형을 다시 빌드하십시오. 최적 수가 최대 수에 계속 가까워지면 트리 수를 계속 늘리십시오.

평균 로그 우도

Minitab은 반응이 이항일 때 음수 로그 우도 함수의 평균을 계산합니다. 다른 모형의 검정에 대한 평균 로그 우도 값을 비교하여 가장 적합한 모형을 결정합니다. 평균 로그 우도 값이 낮을수록 더 적합합니다.

ROC 곡선 아래 면적

ROC 곡선은 y축에 검정력이라고도 하는 진양성률(TPR)을 플로팅합니다. ROC 곡선은 x축에서 유형 1 오차라고도 하는 가양성률(FPR)을 표시합니다. ROC 곡선 아래 면적은 모형이 올바른 분류자인지 여부를 나타냅니다.

분류 트리의 경우 ROC 곡선 아래 면적 값 범위는 0.5에서 1 사이입니다. 값이 클수록 더 좋은 분류 모형을 나타냅니다. 이항 모형이 등급을 완벽하게 구분할 수 있는 경우 곡선 아래 면적은 1입니다. 이항 모형이 임의 할당보다 등급을 더 잘 구분할 수 없는 경우 곡선 아래 면적은 0.5입니다.

향상도

반응이 이항일 때 Minitab은 향상도를 표시합니다. 향상도는 올바른 분류의 가장 좋은 기회와 데이터의 10%에 대한 누적 향상도입니다.

향상도는 평균 반응으로 나눈 대상 반응의 비율을 나타냅니다. 향상도가 1보다 크면 데이터 세그먼트가 예상 반응보다 큽니다.

오분류 비율

최적의 오분류 비율은 ROC 곡선 아래의 최적 영역이 있는 트리에서 발생합니다. 오분류 비율은 모형이 사건 및 비사건을 정확하게 분류하는 빈도를 나타냅니다.

값이 작을수록 더 좋은 성능을 나타냅니다.