CART® 회귀 분석에 대한 MAD 대 터미널 노드 수 그림

Minitab은 트리의 터미널 노드 수에 대해 MAD(평균 절대 편차) 값의 그림을 표시하므로 트리를 선택하여 추가로 평가할 수 있습니다. 검정 데이터 세트 또는 k-폴드 교차 검증을 사용하여 트리의 성능을 검증하는 경우 MAD 값은 검증 데이터에 대한 것입니다.

MAD 대 터미널 노드 수 그림에는 각 트리에 대한 MAD 값이 표시됩니다. 이 그림은 노드 분할 방법이 최소 절대 편차일 때 나타납니다. 기본적으로 초기 회귀 트리는 최소 MAD 값의 1 표준 오차 내에 MAD 값을 가진 가장 작은 트리입니다. 분석에서 교차 검증 또는 검정 데이터 세트를 사용하는 경우 MAD 값은 검증 표본에서 나온 것입니다. 검증 표본에 대한 값은 일반적으로 트리가 커질수록 평준화되고 결국 증가하기 시작합니다.

대립 트리 선택을 클릭하여 모형 요약 통계 표를 포함하는 대화형 그림을 엽니다. 그림을 사용하여 성능이 비슷한 대립 트리를 조사합니다.

일반적으로 다음 두 가지 이유 중 하나에 대한 대립 트리를 선택합니다.
  • Minitab이 선택하는 트리는 기준이 향상되는 패턴의 일부입니다. 노드가 몇 개 더 있는 하나 이상의 트리는 동일한 패턴의 일부입니다. 일반적으로 최대한 많은 예측 정확도를 가진 트리에서 예측을 하려고 합니다.
  • Minitab이 선택하는 트리는 기준이 비교적 평평한 패턴의 일부입니다. 모형 요약 통계가 비슷한 하나 이상의 트리에는 최적 트리보다 훨씬 적은 수의 노드가 있습니다. 일반적으로 터미널 노드 수가 더 적은 트리는 각 예측 변수가 반응 값에 미치는 영향을 보다 명확하게 파악할 수 있습니다. 더 작은 트리는 또한 쉽게 추가 연구에 대한 몇 가지 대상 그룹을 식별할 수 있습니다. 더 작은 트리에 대한 예측 정확도의 차이를 무시할 수 있는 경우 더 작은 트리를 사용하여 반응 변수와 예측 변수 간의 관계를 평가할 수도 있습니다.

해석

주요 결과: 34개의 터미널 노드가 있는 트리에 대한 MAD 대 터미널 노드 수 그림

34개의 터미널 노드가 있는 회귀 트리의 MAD 값은 약 0.38입니다. 이 트리는 트리 생성 기준이 가장 작은 절대 편차 값의 1 표준 오차 내의 편차 값을 가진 가장 작은 트리이기 때문에 "최적" 레이블이 있습니다. 이 차트는 MAD 값이 약 80개의 노드가 있는 트리에 비해 약 30개의 노드가 있는 트리가 비교적 안정적이라는 것을 보여주므로 연구원은 결과에서 트리와 유사한 더 작은 일부 트리의 성능을 보고 싶어합니다. 다음 그래프를 비교하여 29개의 노드가 있는 트리의 결과를 확인합니다.

주요 결과: 29개의 터미널 노드가 있는 트리에 대한 MAD 대 터미널 노드 수 그림

29개의 터미널 노드가 있는 회귀 트리의 MAD 값은 0.3826입니다. 초기 결과의 트리는 대립 트리 선택을 사용하여 다른 트리에 대한 결과를 작성할 때 "최적" 레이블을 유지합니다.