CART^® 회귀 분석의 최적 트리 선택

최적 트리가 최소 제곱 오차를 가진 트리 또는 최소 절대 편차를 가진 트리임을 지정할 수 있습니다. 선택한 기준의 최량 값을 가진 트리 결정은 검증 방법에 따라 다릅니다.

이 항목의 내용

모형 검증 방법
K-접기 교차 검증을 통한 최적의 트리
별도의 검정 데이터 집합이 있는 최적의 트리
검증을 사용하지 않은 최적 트리

모형 검증 방법 및 복잡도 파라미터에 대한 자세한 내용은 Breiman, Friedman, Olshen and Stone (1984)¹.

모형 검증 방법

결정계수와 같은 모형 요약 통계는 모형을 적합시키는 데 사용하는 것과 동일한 데이터로 계산할 때 낙관적인 경향이 있습니다. 모형 검증 방법은 데이터 일부를 모형 적합 프로세스에서 제거한 다음 생략된 데이터에서 모형의 성능을 평가하는 통계를 계산합니다. 모형 검증 기술은 모형이 새 데이터에 대해 얼마나 잘 수행되는지 더 잘 예측할 수 있습니다. Minitab은 예측 분석 기술에 대한 두 가지 검증 방법, 즉 k-접기 교차 검증 및 별도의 검증 데이터 집합을 사용한 검증을 제공합니다.

K-접기 교차 검증을 통한 최적의 트리

K-접기 교차 검증은 데이터가 5000건 이하인 경우 Minitab의 기본 방법입니다. 이 방법을 사용하면 Minitab이 데이터를 K 부분 집합으로 분할합니다. 이 부분 집합을 접기라고 합니다. K-접기 교차 검증은 검정 데이터 세트에서 잘 작동하는 데이터 세트에 비해 상대적으로 작은 데이터 세트에서 잘 작동하는 경향이 있습니다. 프로세스가 K번 반복하기 때문에 교차 검증은 일반적으로 검정 데이터 세트의 검증보다 느립니다.

K-접기 교차 검증 절차

k-접기 교차 검증을 완료하기 위해 Minitab은 하위 트리의 1 + k 시퀀스를 생성합니다. 하위 트리 시퀀스 중 하나인 마스터 시퀀스는 전체 학습 데이터 세트를 사용합니다. 다른 k 시퀀스는 k 접기용입니다. 각 접기마다 하위 트리의 시퀀스는 학습 데이터 세트의 사례 수(k - 1)/k를 사용합니다.

각 시퀀스는 중첩된 하위 트리의 유한 시퀀스로 구성됩니다. 각 접기는 시퀀스에서 최대 트리 및 하위 트리에 해당하는 복잡도 모수 α_d ≤ α ≤ α_{d + 1}의 유한 순서를 가지고 있습니다. 전체 데이터 세트에 대한 시퀀스에는 복잡도 모수 β_d ≤ β ≤ β_{d + 1}가 있습니다. 여기서 d = 0, 1, ... D의 경우 β₀는 시퀀스에서 최대 트리의 모수입니다.

마스터 시퀀스의 모든 하위 트리에 대해 해당 복잡도 모수가 β_d 및 β_{d + 1}입니다. 그러면 . 그런 다음 Minitab은 이 알파를 사용하여 k 접기에서 해당 하위 트리를 찾습니다. 각 폴드마다 CART® 회귀 분석의 모형 요약에 대한 방법 및 수식에서 수식을 사용하여 하위 트리에 대해 선택한 기준을 계산합니다. k 폴드에서 기준의 평균은 마스터 시퀀스의 하위 트리에 대한 예상 값입니다. 마스터 시퀀스에서 각 하위 트리에 대한 기준 계산을 반복합니다. 최소 평균값이 있는 하위 트리는 최적 트리입니다.

별도의 검정 데이터 집합이 있는 최적의 트리

검정 데이터 세트를 사용한 검증에서 검증을 위해 데이터의 일부를 따로 설정합니다. 데이터의 이 부분은 학습 데이터 세트입니다. 먼저, Minitab은 학습 데이터 세트를 사용하여 모든 트리를 적합시킵니다. 그런 다음 Minitab은 각 트리의 검정 데이터 세트에 대한 평균 제곱 오차 또는 절대 편차를 계산합니다. 검정 데이터 세트에 대한 기준의 최적값을 가진 트리는 최적의 트리입니다.

검증을 사용하지 않은 최적 트리

검증을 사용하지 않으면 Minitab은 하위 트리의 시퀀스를 증가시키는 전체 데이터 세트를 사용합니다. 터미널 노드가 가장 많은 하위 트리는 최소 평균 제곱 오차 또는 최소 절대 편차를 가지고 있으며 최적 트리입니다.

¹ Breiman, Friedman, Olshen & Stone. (1984)을 참조하십시오. Classification and Regression Trees. Boca Raton, Florida: Chapman & Hall/CRC.