CART^® 분류의 최적 트리 선택

선택한 트리에 따라 최적의 트리는 최소 오분류 비용이나 최소 오분류 비용의 표준 오차 배수 내에서 오분류 비용이 있는 가장 작은 트리를 산출하는 트리입니다. 최적의 트리 결정은 검증 방법에 따라 다릅니다.

이 항목의 내용

모형 검증 방법
K-접기 교차 검증을 사용한 최적의 트리
별도의 검정 데이터 세트가 있는 최적 트리
검증을 사용하지 않은 최적 트리

모형 검증 방법 및 복잡도 파라미터에 대한 자세한 내용은 Breiman, Friedman, Olshen and Stone (1984)¹.

모형 검증 방법

ROC 곡선 아래 면적과 같은 모형 요약 통계는 모형을 적합하는 데 사용하는 것과 동일한 데이터로 계산할 때 낙관적인 경향이 있습니다. 모형 검증 방법은 데이터 일부를 모형 적합 프로세스에서 제거한 다음 생략된 데이터에서 모형의 성능을 평가하는 통계를 계산합니다. 모형 검증 기술은 모형이 새 데이터에 대해 얼마나 잘 수행되는지 더 잘 예측할 수 있습니다. 생략된 데이터에서 오분류 비용은 최적의 트리를 선택하는 기준입니다. Minitab은 예측 분석 기술에 대한 두 가지 검증 방법, 즉 k-접기 교차 검증 및 별도의 검증 데이터 세트를 사용한 검증을 제공합니다.

K-접기 교차 검증을 사용한 최적의 트리

K-접기 교차 검증은 데이터가 5000건 이하인 경우 Minitab의 기본 방법입니다. 이 방법을 사용하면 Minitab이 데이터를 K 부분 집합으로 분할합니다. 이 부분 집합을 접기라고 합니다. K-접기 교차 검증은 검정 데이터 세트에서 잘 작동하는 데이터 세트에 비해 상대적으로 작은 데이터 세트에서 잘 작동하는 경향이 있습니다. 프로세스가 K번 반복하기 때문에 교차 검증은 일반적으로 검정 데이터 세트의 검증보다 느립니다.

K-접기 교차 검증 절차

k-접기 교차 검증을 완료하기 위해 Minitab은 하위 트리의 1 + k 시퀀스를 생성합니다. 하위 트리 시퀀스 중 하나인 마스터 시퀀스는 전체 학습 데이터 세트를 사용합니다. 다른 k 시퀀스는 k 접기용입니다. 각 접기마다 하위 트리의 시퀀스는 학습 데이터 세트의 사례 수(k - 1)/k를 사용합니다.

각 시퀀스는 중첩된 하위 트리의 유한 시퀀스로 구성됩니다. 각 접기는 시퀀스에서 최대 트리 및 하위 트리에 해당하는 복잡도 모수 α_d ≤ α ≤ α_{d + 1}의 유한 순서를 가지고 있습니다. 전체 데이터 세트에 대한 시퀀스에는 복잡도 모수 β_d ≤ β ≤ β_{d + 1}가 있습니다. 여기서 d = 0, 1, ... D의 경우 β₀는 시퀀스에서 최대 트리의 모수입니다.

마스터 시퀀스의 모든 하위 트리에 대해 해당 복잡도 모수가 β_d 및 β_{d + 1}입니다. 그러면 . 그런 다음 Minitab은 이 알파를 사용하여 k 접기에서 해당 하위 트리를 찾습니다. 각 접기마다 CART® 분류의 모형 요약에 대한 방법 및 수식의 수식을 사용하여 하위 트리의 오분류 비용을 계산합니다. k 접기에 걸친 평균 오분류 비용은 마스터 시퀀스의 하위 트리에 대한 예상 오분류 비용입니다. 마스터 시퀀스의 각 하위 트리에 대한 예상 오분류 비용 계산을 반복합니다. 이 절차는 최소 평균 오분류 비용으로 하위 트리를 식별합니다. 최소 오분류 비용이 있는 트리 또는 오분류 비용의 배수로 분류 비용이 있는 가장 작은 트리는 결과에서 최적의 트리가 됩니다.

별도의 검정 데이터 세트가 있는 최적 트리

검정 데이터 세트를 사용한 검증에서 검증을 위해 데이터의 일부를 따로 설정합니다. 데이터의 이 부분은 학습 데이터 세트입니다. 먼저, Minitab은 학습 데이터 세트를 사용하여 모든 트리를 적합합니다. 그런 다음 Minitab은 각 트리의 검정 데이터 세트에 대한 평균 제곱 오차 또는 절대 편차를 계산합니다. 검정 데이터 세트에 대한 기준의 최적값을 가진 트리는 최적의 트리입니다.

검증을 사용하지 않은 최적 트리

검증을 사용하지 않으면 Minitab은 하위 트리의 시퀀스를 증가시키는 전체 데이터 세트를 사용합니다. 터미널 노드가 가장 많은 하위 트리는 최소 오분류 비용이 있으며 최적의 트리입니다.

¹ Breiman, Friedman, Olshen & Stone. (1984)을 참조하십시오. Classification and Regression Trees. Boca Raton, Florida: Chapman & Hall/CRC.