CART® 회귀 분석에 대한 방법 표

방법 표의 모든 통계에 대한 정의 및 해석을 찾습니다.

노드 분할

Minitab은 노드 분할 기준으로 최소 제곱 오차 또는 최소 절대 편차를 사용할 수 있습니다. 최소 제곱 오차 방법은 제곱 오차의 합을 최소화합니다. 최소 절대 편차 방법은 오차 절대값의 합을 최소화합니다.

최적 트리

Minitab은 처음에 최적 트리의 기준 값의 여러 표준 오차 내에 기준 값이 있는 가장 작은 트리 또는 최적 트리에 대한 결과를 제공합니다. 기본적으로 결과는 노드 분할 방법에 대한 선택 여부에 따라 최대 결정계수 값의 1 표준 오차 내 결정계수 값을 가진 가장 작은 트리 또는 최소값의 1 표준 오차 내 절대 편차 값이 있는 가장 작은 트리에 대한 것입니다.

해석

많은 데이터 세트의 경우 단말 노드 수가 증가함에 따라 처음에는 기준이 향상됩니다. 그런 다음 기준이 최적 값에 도달하고 나중에 악화됩니다. 최적 값이 노드를 추가해도 기준 값에서 거의 차이가 없는 트리에 대한 것이면 최적 트리뿐만 아니라 거의 수행하는 더 작은 트리를 사용할지 여부를 고려할 수 있습니다. 작은 트리는 해석하기가 더 쉽습니다.

모형 검증

Minitab은 검정 데이터 세트 또는 k-폴드 교차 검증을 사용하여 트리의 성능을 검증할 수 있습니다. 트리 성능을 검증하지 않도록 선택할 수도 있습니다. 분석에서 검정 데이터 세트를 사용하는 경우 이 항목은 학습 및 검정 데이터 세트의 목표 비율을 표시합니다.

해석

기본적으로 Minitab은 k-폴드 교차 검증을 사용하여 5,000개 이하의 데이터 세트에 대한 트리 성능을 검증합니다. 사례가 5,000개 이상인 데이터 세트의 경우 Minitab은 검정 데이터 세트를 사용합니다. 분석에서 검증 방법을 사용하는 경우 최적 트리 선택 기준은 검증 방법에서 제공됩니다. 검증 방법을 사용하여 최적 트리를 선택하면 트리가 사용 가능한 데이터를 과도 적합시키지 않고 새 데이터에 대한 트리 성능의 보다 현실적인 설명을 제공합니다.

결측값 페널티

기본적으로 분석에 결측 값 페널티가 없으며 이 행이 없습니다. 결측값 페널티는 각 노드에 대한 결측값 비율에 따라 경쟁업체에게 불이익을 주게 됩니다. 따라서 노드에서 결측값이 많은 경쟁업체는 기본 분할 역할을 할 가능성이 적습니다.

높은 수준 범주 페널티

기본적으로 분석에 높은 수준의 범주 페널티가 없으며 이 행은 존재하지 않습니다. 높은 수준 범주 페널티는 각 노드의 노드 크기에 대한 범주 수준 수에 따라 경쟁업체에게 불이익을 주게 됩니다. 따라서 노드에 여러 수준을 가진 경쟁업체는 기본 분할 역할을 할 가능성이 적습니다.

가중치

반응에 가중치를 주기 위해 사용되는 열을 나타냅니다.

사용된 행

예측 분석에 대한 분석에서 예측 변수의 결측 데이터를 처리하는 방식 때문에 사용되는 행 수는 전체 데이터 세트와 동일한 크기인 경우가 많습니다. 일부 데이터는 유효하지 않으며 분석에서 제외될 수 있습니다. 예를 들어 분석에서는 반응 값이 누락되었거나 가중치가 누락되었거나 가중치가 0이거나 음수 가중치가 있는 행을 제외합니다.

사용되지 않는 행

누락된 반응 관측치 수입니다. 여기에는 가중치 열에 결측값 또는 0도 포함됩니다.