CART® 분류에 대한 기본 설정 지정

파일 > 옵션 > 예측 분석 > CART® 분류

분류 트리에 대한 기본 메서드를 지정합니다. 변경된 기본 설정은 Minitab을 종료한 후에도 설정을 다시 변경할 때까지 유지됩니다.

노드 분할 방법
분할 방법을 선택하여 의사 결정 트리를 생성합니다. 여러 분할 방법의 결과를 비교하여 응용 프로그램에 가장 적합한 선택을 결정할 수 있습니다.
  • : 지니 메서드가 기본 방법입니다. Gini 메서드는 많은 응용 프로그램에서 잘 작동합니다. Gini 메서드는 일반적으로 관심 있는 응답의 높은 농도와 작은 노드를 포함 하는 트리를 생성 합니다.
  • : 엔트로피 메서드는 노드에 대한 특정 가능성 함수의 최대값에 비례합니다.
  • : Twoing 메서드는 다항식 응답으로만 사용할 수 있습니다. Twoing 메서드는 일반적으로 지니 또는 엔트로피 메서드보다 균형 잡힌 분할을 생성합니다. 이진 응답의 경우 Twoing 메서드는 Gini 메서드와 동일합니다.
  • : 확률 트리는 지니 트리보다 큰 경향이 있습니다. 몇 가지 상위 노드의 성능에 관심이 있을 때 확률 메서드를 사용합니다.
최적의 트리 선택 기준
다음 기준 중에서 선택하여 결과에서 트리를 선택합니다. 다른 트리의 결과를 비교하여 응용 프로그램에 가장 적합한 선택을 결정할 수 있습니다.
  • : 잘못된 분류 비용을 최소화하는 트리에 대한 결과를 표시하려면 이 옵션을 선택합니다.
  • : 최소 오분류 비용의 K 표준 오류 내에서 잘못된 분류 비용이 있는 가장 작은 트리에 대한 결과를 표시하려면 이 옵션을 선택합니다. 기본적으로 K=1이므로 결과는 최소 오분류 비용이 있는 트리의 표준 오류 1개 이내의 잘못된 분류 비용이 있는 가장 작은 트리에 대한 결과입니다.
내부 노드를 분할하는 최소 사례 수
분할할 내부 노드의 최소 사례 수를 나타내는 값을 입력합니다. 기본값은 10입니다. 샘플 크기가 클수록 이 최소값으로 늘릴 수 있습니다. 예를 들어 내부 노드에 10개 이상의 케이스가 있는 경우 Minitab은 분할을 수행하려고 시도합니다. 내부 노드에 9개 이하의 케이스가 있는 경우 Minitab은 분할을 수행하지 않습니다.
내부 노드 제한은 터미널 노드 제한의 두 배 이상이어야 하지만 비율이 클수록 좋습니다. 최소 3배의 터미널 노드 제한으로 내부 노드 제한은 적당한 수의 스플리터를 허용합니다.
기본값은 10입니다.
단말 노드에 허용되는 최소 사례 수
터미널 노드로 분리될 수 있는 최소 케이스 수를 나타내는 값을 입력합니다. 기본값은 3입니다. 샘플 크기가 클수록 이 최소값으로 늘릴 수 있습니다. 예를 들어 분할이 3개 미만의 경우 노드를 만드는 경우 Minitab은 분할을 수행하지 않습니다.
기본값은 3입니다.
누락된 값 페널티
누락된 값이 있는 예측 변수에 대한 페널티 값을 입력합니다. 데이터가 적은 경우 좋은 스플리터로 쉽게 사용할 수 있으므로 데이터가 누락된 예측 변수는 누락된 데이터 없이 예측 변수에 비해 이점이 있습니다. 이 옵션을 사용하여 누락된 데이터로 예측 변수에 불이익을 주면 됩니다.
0.0 ≤ K ≤ 2.0, 예를 들어:
  • K = 0: 페널티없음을 지정합니다.
  • K = 2: 가장 높은 페널티를 지정합니다.
높은 수준의 카테고리 페널티
값이 많은 범주형 예측 변수에 대해 페널티 값을 입력합니다. 레벨이 많은 범주형 예측 변수는 분할 능력이 증가하여 트리를 왜곡할 수 있으므로 레벨이 적은 예측 변수에 비해 이점이 있습니다. 이 옵션을 사용하여 여러 수준의 예측 변수를 불이익을 주면 됩니다.
0.0 ≤ K ≤ 5.0, 예를 들어:
  • K = 0: 페널티없음을 지정합니다.
  • K = 5: 가장 높은 페널티를 지정합니다.
그래프 및 표 표시
혼동 매트릭스의 비율
혼동 행렬에 표시할 속도를 선택합니다.
  • 참 긍정: 참 긍정 비율(TPR) - 이벤트 사례가 올바르게 예측될 확률입니다.
  • 거짓 긍정: 거짓 긍정 비율(FPR) - 이벤트가 아닌 경우가 잘못 예측될 확률입니다.
  • 거짓 부정률: 거짓 음수 비율(FNR) - 이벤트 사례가 잘못 예측될 확률입니다.
  • 참 음수: 참 음수 비율(TNR) - 이벤트가 아닌 경우가 올바르게 예측될 확률입니다.
수신자 검사 특성(ROC) 곡선
수신기 작동 특성(ROC) 곡선은 트리가 클래스를 구별하는 능력을 보여줍니다. ROC 곡선은 거짓 긍정 비율(FPR)에 대해 실제 양수율(TPR)을 플로팅합니다.
이익 차트
누적 게인 차트는 모집단의 일부에서 모델의 효과를 보여 줍니다. 게인 차트는 % 집단 대 클래스를 플로팅합니다.
향상도 차트
리프트 차트는 예측 모델의 효과를 보여 줍니다. 리프트 차트는 누적 상승률과 % 채우기를 플롯하고 예측 모델의 유무에 관계없이 얻은 결과 간의 차이를 표시합니다. 이 차트를 지정하거나 지정할 수 있습니다.
단말 노드 유형
분류 테이블의 효율성 및 주제 분류 표에 대해 최상의 노드, 최악의 노드 또는 둘 다표시할지 선택합니다.
  • : 기본적으로 Minitab은 최고의 터미널 노드를 표시합니다. 최상의 노드는 이벤트 확률(바이너리) 또는 가장 높은 클래스 확률(다항식) 값을 가합니다. 이진 응답의 경우 최상의 노드에는 1 또는 0의 두 끝 케이스에 가까운 이벤트 확률이 있습니다.
  • : 최악의 터미널 노드를 표시하려면 선택합니다. 최악의 노드는 가장 낮은 이벤트 확률(바이너리) 또는 가장 낮은 클래스 확률(다항식) 값을 가수합니다. 이진 응답의 경우 최악의 노드는 이벤트 확률이 0.5의 중간 값에 가깝습니다.
  • : 최고 및 최악의 터미널 노드를 표시하려면 선택합니다.