CART^® 분류에 대한 방법 표

방법 표에 대한 정의 및 해석 지침을 찾습니다.

이 항목의 내용

사전 확률
노드 분할
최적 트리
모형 검증
결측값 페널티

높은 수준 범주 페널티
가중치
사용된 행
사용되지 않는 행

사전 확률

사전 확률은 데이터를 수집하기 전에 관측치가 그룹에 속할 확률입니다. 예를 들어 특정 자동차의 구매자를 분류하는 경우 구매자의 60%가 남성이고 40%가 여성이라는 것을 이미 알고 있을 수 있습니다.

사전 확률을 사용하여 특정 클래스의 분류 정확도를 높입니다. CART는 사전 확률에 따라 내부적으로 균형을 맞추기 위한 다른 결정을 합니다. 클래스의 확률을 높이고 다른 클래스의 확률을 낮추면 다른 클래스의 오분류 비율의 균형을 맞추는 데 도움이 됩니다. 예를 들어 사건 확률을 높이고 비사건 확률을 낮추면 가양성률이 향상될 수 있지만 가음성률을 악화시킬 수 있습니다.

사건 확률을 높이면 사건에 대한 클래스 할당의 노드 분계점이 낮아집니다. 따라서 사건 클래스의 분율이 낮은 노드는 사건으로 분류됩니다. 사전 확률은 트리 성장 단계 동안 전체 트리 개발에 가장 큰 영향을 미치며 최종 모형을 변경할 수 있는 강력한 방법을 제공합니다.

해석

모든 클래스에 대해 같음: 예를 들어 4개의 클래스가 있는 각 클래스 확률은 0.25입니다.
전체 표본 빈도 일치: 예를 들어, 1 클래스는 빈도의 50%를 포함할 수 있고, 2 클래스는 빈도의 30%를 포함할 수 있고, 마지막 클래스는 빈도의 20%를 포함할 수 있습니다. 따라서 사전 확률은 0.50, 0.30 및 0.20입니다.
사용자 지정: 사전 확률은 사용자의 판단에 따르며 오분류 비율의 균형을 맞추기 위해 변경될 수 있습니다. 확률은 합이 1이어야 합니다.

노드 분할

Minitab은 다음과 같은 노드 분할 방법을 제공합니다.

지니
엔트로피
클래스 확률
투잉 - 다항 반응으로 사용할 수 있습니다. 투잉 방법은 이항 반응을 가진 지니 방법과 동일합니다.

해석

분할 방법을 사용하여 데이터에 가장 적합한 트리를 찾습니다. 특정 분할 방법은 데이터에 따라 다른 방법보다 더 좋을 수 있습니다. 여러 분할 방법의 결과를 비교하여 용도에 가장 적합한 선택을 결정합니다.

최적 트리

Minitab은 최소 오분류 비용을 사용하여 최적의 트리를 결정하거나 오분류 비용 기준 표준 오차 범위를 지정하여 최적의 트리 선택을 확장할 수 있습니다.

최소 오분류 비용: Minitab은 최적의 트리를 선택하기 위해 최소 상대 비용을 사용합니다.
최소 오분류 비용의 K 표준 오차 이내: Minitab은 지정한 표준 오차 범위 내에 속하는 오분류 비용으로 트리를 식별하고 해당 범위 내에 있는 단말 노드 수가 가장 적은 트리를 최적의 트리로 선택합니다.

모형 검증

Minitab은 교차 검증 방법을 사용하거나 별도의 검정 세트를 사용하여 모형을 검증합니다. 교차 검증을 사용하면 각 폴드의 행을 지정하거나 임의 선택을 허용할 수 있습니다. 별도의 검정 세트를 사용하면 학습 및 검정 세트에 대한 행을 지정하거나 임의 선택을 허용할 수 있습니다.

결측값 페널티

기본적으로 분석에 결측값 페널티가 없으며 이 행이 없습니다. 결측값 페널티는 각 노드에 대한 결측값 비율에 따라 경쟁업체에게 불이익을 주게 됩니다. 따라서 노드에서 결측값이 많은 경쟁업체는 기본 분할 역할을 할 가능성이 적습니다.

높은 수준 범주 페널티

기본적으로 분석에 높은 수준의 범주 페널티가 없으며 이 행은 존재하지 않습니다. 높은 수준 범주 페널티는 각 노드의 노드 크기에 대한 범주 수준 수에 따라 경쟁업체에게 불이익을 주게 됩니다. 따라서 노드에 여러 수준을 가진 경쟁업체는 기본 분할 역할을 할 가능성이 적습니다.

가중치

반응에 가중치를 주기 위해 사용되는 열을 나타냅니다.

사용된 행

트리에 사용된 반응 관측치 수입니다.

사용되지 않는 행

누락된 반응 관측치 수입니다. 여기에는 가중치 열에 결측값 또는 0도 포함됩니다.

CART® 분류에 대한 방법 표