CART® 회귀 분석에 대한 결정계수 대 터미널 노드 수 그림

Minitab은 트리의 터미널 노드 수에 대해 결정계수 값의 그림을 표시하므로 트리를 선택하여 추가로 평가할 수 있습니다. 검정 데이터 세트 또는 k-폴드 교차 검증을 사용하여 트리의 성능을 검증하는 경우 결정계수 값은 검증 데이터에 대한 것입니다.

결정계수 대 터미널 노드 수 그림에는 각 트리에 대한 결정계수 값이 표시됩니다. 기본적으로 초기 회귀 트리는 최대 결정계수 값의 1 표준 오차 내에 결정계수 값을 가진 가장 작은 트리입니다. 분석에서 교차 검증 또는 검정 데이터 세트를 사용하는 경우 결정계수 값은 검증 표본에서 나온 것입니다. 검증 표본에 대한 값은 일반적으로 트리가 커질수록 평준화되고 결국 감소하기 시작합니다.

대립 트리 선택을 클릭하여 모형 요약 통계 표를 포함하는 대화형 그림을 엽니다. 그림을 사용하여 성능이 비슷한 대립 트리를 조사합니다.

일반적으로 다음 두 가지 이유 중 하나에 대한 대립 트리를 선택합니다.
  • Minitab이 선택하는 트리는 기준이 향상되는 패턴의 일부입니다. 노드가 몇 개 더 있는 하나 이상의 트리는 동일한 패턴의 일부입니다. 일반적으로 최대한 많은 예측 정확도를 가진 트리에서 예측을 하려고 합니다.
  • Minitab이 선택하는 트리는 기준이 비교적 평평한 패턴의 일부입니다. 모형 요약 통계가 비슷한 하나 이상의 트리에는 최적의 트리보다 훨씬 적은 수의 노드가 있습니다. 일반적으로 터미널 노드 수가 더 적은 트리는 각 예측 변수가 반응 값에 미치는 영향을 보다 명확하게 파악할 수 있습니다. 더 작은 트리는 또한 쉽게 추가 연구에 대한 몇 가지 대상 그룹을 식별할 수 있습니다. 더 작은 트리에 대한 예측 정확도의 차이를 무시할 수 있는 경우 더 작은 트리를 사용하여 반응 변수와 예측 변수 간의 관계를 평가할 수도 있습니다.

해석

주요 결과: 21개의 터미널 노드가 있는 트리에 대한 결정계수 대 터미널 노드 수 그림

21개의 터미널 노드가 있는 회귀 트리의 결정계수 값은 약 0.78입니다. 이 트리는 트리 생성 기준이 최대 결정계수 값의 1 표준 오차 내의 결정계수 값을 가진 가장 작은 트리이기 때문에 "최적" 레이블이 있습니다. 이 차트는 결정계수 값이 약 70개의 노드가 있는 트리에 비해 약 20개의 노드가 있는 트리가 비교적 안정적이라는 것을 보여주므로 연구원은 결과에서 트리와 유사한 더 작은 일부 트리의 성능을 보고 싶어합니다. 다음 그래프를 비교하여 17개의 노드가 있는 트리의 결과를 확인합니다.

주요 결과: 17개의 터미널 노드가 있는 트리에 대한 결정계수 대 터미널 노드 수 그림

17개의 터미널 노드가 있는 회귀 트리의 결정계수 값은 0.7661입니다. 초기 결과의 트리는 대립 트리 선택을 사용하여 다른 트리에 대한 결과를 작성할 때 "최적" 레이블을 유지합니다.