CART® 분류에 대한 모형 요약 표

모형 요약 표에 대한 정의 및 해석 지침을 찾습니다.
참고

Minitab은 학습 및 검정 데이터 세트 모두에 대한 결과를 표시합니다. 검정 결과는 모형이 새 관측치에 대한 반응 값을 적절하게 예측할 수 있는지 또는 반응과 예측 변수 간의 관계를 적절하게 요약할 수 있는지를 나타냅니다. 학습 결과는 일반적으로 실제보다 더 이상적이며 참조용입니다.

대립 트리 선택을 클릭하여 모형 요약 통계 표를 포함하는 대화형 그림을 엽니다. 그림을 사용하여 성능이 비슷한 작은 트리를 조사합니다.

일반적으로 터미널 노드 수가 더 적은 트리는 각 예측 변수가 반응 값에 미치는 영향을 보다 명확하게 파악할 수 있습니다. 더 작은 트리는 또한 쉽게 추가 연구에 대한 몇 가지 대상 그룹을 식별할 수 있습니다. 더 작은 트리에 대한 예측 정확도의 차이를 무시할 수 있는 경우 더 작은 트리를 사용하여 반응과 예측 변수 간의 관계를 평가할 수 있습니다.

총 예측 변수

분류 트리에 사용할 수 있는 총 예측 변수 수입니다. 지정한 계량형 및 범주형 예측 변수의 합계입니다.

중요한 예측 변수

분류 트리의 중요한 예측 변수 수입니다. 중요한 예측 변수는 기본 또는 대체 분할로 사용되는 변수입니다.

해석

상대 변수 중요도 그림을 사용하여 상대 변수 중요도의 순서를 표시할 수 있습니다. 예를 들어 20개의 예측 변수 중 10개가 분류 트리에서 중요하다고 가정하면 상대 변수 중요도 그림은 변수를 중요도 순서대로 표시합니다.

단말 노드 수

단말 노드는 더 이상 분할할 수 없는 최종 노드입니다.

해석

터미널 노드는 분류 트리 방법을 사용하여 식별된 최종 순수 그룹입니다. 단말 노드 정보를 사용하여 예측을 수행할 수 있습니다.

최소 단말 노드 크기

최소 단말 노드 크기는 사례 수가 가장 적은 단말 노드입니다.

해석

기본적으로 Minitab은 터미널 노드에 허용되는 최소 사례 수를 3개의 사례로 설정합니다. 그러나 트리에 있는 최소 터미널 노드 크기가 3보다 클 수 있습니다. 이 분계점을 옵션 대화 상자에서 변경할 수도 있습니다.

평균 로그 우도

Minitab은 반응이 이항일 때 음수 로그 우도 함수의 평균을 계산합니다.

해석

다른 모형의 검정에 대한 평균 로그 우도 값을 비교하여 가장 적합한 모형을 결정합니다. 평균 로그 우도 값이 낮을수록 더 적합합니다.

ROC 곡선 아래 면적

ROC 곡선은 y축에 검정력이라고도 하는 진양성률(TPR)을 플로팅합니다. ROC 곡선은 x축에서 유형 1 오차라고도 하는 가양성률(FPR)을 표시합니다. ROC 곡선 아래 면적은 분류 트리가 올바른 분류자인지 여부를 나타냅니다.

해석

분류 트리의 경우 ROC 곡선 아래 면적 값 범위는 0.5에서 1사이입니다. 분류 트리가 등급을 완벽하게 구분할 수 있는 경우 곡선 아래 면적은 1입니다. 분류 트리가 임의 할당보다 등급을 더 잘 구분할 수 없는 경우 곡선 아래 면적은 0.5입니다.

향상도

반응이 이항일 때 Minitab은 향상도를 표시합니다. 향상도는 올바른 분류의 가장 좋은 기회와 데이터의 10%에 대한 누적 향상도입니다.

해석

향상도는 평균 반응으로 나눈 대상 반응의 비율을 나타냅니다. 향상도가 1보다 크면 데이터 세그먼트가 예상 반응보다 큽니다.

오분류 비용

오분류 비용은 상대적인 오분류 비용입니다. 비용은 모든 경우에 대해 가장 일반적인 결과를 예측하는 트리를 기준으로 합니다. 상대 비용은 오차 비율과 가중 비용을 설명합니다.

해석

검정에서 오분류 비용은 Minitab이 다른 트리 대신 결과에 트리를 사용하여 새 관측치에 대한 반응 값을 예측할 때 모든 수준에서 발생하는 오분류 비용을 나타냅니다. 값이 작을수록 결과의 트리가 더 잘 수행되었음을 나타냅니다. 값이 1보다 작으면 결과의 모형이 모든 사례에 대해 가장 일반적인 결과를 예측하는 모형보다 비용이 적게 든다는 것을 나타냅니다.