사전 확률은 데이터를 수집하기 전에 관측치가 그룹에 속할 확률입니다. 예를 들어 특정 자동차의 구매자를 분류하는 경우 구매자의 60%가 남성이고 40%가 여성이라는 것을 이미 알고 있을 수 있습니다.
사전 확률을 사용하여 특정 클래스의 분류 정확도를 높입니다. CART는 사전 확률에 따라 내부적으로 균형을 맞추기 위한 다른 결정을 합니다. 클래스의 확률을 높이고 다른 클래스의 확률을 낮추면 다른 클래스의 오분류 비율의 균형을 맞추는 데 도움이 됩니다. 예를 들어 사건 확률을 높이고 비사건 확률을 낮추면 가양성률이 향상될 수 있지만 가음성률을 악화시킬 수 있습니다.
사건 확률을 높이면 사건에 대한 클래스 할당의 노드 분계점이 낮아집니다. 따라서 사건 클래스의 분율이 낮은 노드는 사건으로 분류됩니다. 사전 확률은 트리 성장 단계 동안 전체 트리 개발에 가장 큰 영향을 미치며 최종 모형을 변경할 수 있는 강력한 방법을 제공합니다.
분할 방법을 사용하여 데이터에 가장 적합한 트리를 찾습니다. 특정 분할 방법은 데이터에 따라 다른 방법보다 더 좋을 수 있습니다. 여러 분할 방법의 결과를 비교하여 용도에 가장 적합한 선택을 결정합니다.
Minitab은 교차 검증 방법을 사용하거나 별도의 검정 세트를 사용하여 모형을 검증합니다. 교차 검증을 사용하면 각 폴드의 행을 지정하거나 임의 선택을 허용할 수 있습니다. 별도의 검정 세트를 사용하면 학습 및 검정 세트에 대한 행을 지정하거나 임의 선택을 허용할 수 있습니다.
기본적으로 분석에 결측값 페널티가 없으며 이 행이 없습니다. 결측값 페널티는 각 노드에 대한 결측값 비율에 따라 경쟁업체에게 불이익을 주게 됩니다. 따라서 노드에서 결측값이 많은 경쟁업체는 기본 분할 역할을 할 가능성이 적습니다.
기본적으로 분석에 높은 수준의 범주 페널티가 없으며 이 행은 존재하지 않습니다. 높은 수준 범주 페널티는 각 노드의 노드 크기에 대한 범주 수준 수에 따라 경쟁업체에게 불이익을 주게 됩니다. 따라서 노드에 여러 수준을 가진 경쟁업체는 기본 분할 역할을 할 가능성이 적습니다.
반응에 가중치를 주기 위해 사용되는 열을 나타냅니다.
트리에 사용된 반응 관측치 수입니다.
누락된 반응 관측치 수입니다. 여기에는 가중치 열에 결측값 또는 0도 포함됩니다.