CART® 회귀 분석에 대한 MSE 또는 MAD 대 터미널 노드 산점도

MSE 대 터미널 노드 산점도 또는 MAD 대 터미널 노드 산점도를 사용하여 가장 정확한 적합치와 가장 정확하지 않은 적합치가 있는 노드를 확인합니다. 분석에서 검정 데이터 세트를 사용하는 경우 학습 데이터 그림을 검정 데이터 그림과 비교할 수 있습니다.

노드 분할 방법이 최소 제곱 오차인 경우 y축에 MSE(평균 제곱 오차)가 표시됩니다. 노드 분할 방법이 최소 절대 편차인 경우 y축은 MAD(평균 절대 편차)입니다. x축은 터미널 노드의 식별 번호를 표시합니다. 기본적으로 노드는 최소 오차부터 최대 오차까지 순서대로 정렬됩니다. 분석을 실행하면 그래프 단추를 눌러 식별 번호로 노드를 정렬하는 옵션을 찾을 수 있습니다.

해석

트리가 데이터를 잘 적합시키는 경우 모든 노드에는 약간의 오차가 있습니다. 일반적인 패턴은 일부 노드의 오차가 다른 노드의 오차보다 커지는 것입니다. 최소 오차가 있는 노드의 적합치에 대해 가장 높은 신뢰도를 가질 수 있습니다. 오차가 가장 많은 노드는 변동을 줄이는 방법을 배우거나 노드의 변동을 설명하는 추가 예측 변수를 찾아 트리를 개선할 수 있는 최상의 기회를 나타낼 수 있습니다.

분석에서 검정 데이터 세트를 사용하는 경우 그림에는 학습 및 검정 데이터에 대한 별도의 점이 포함됩니다. 검정 데이터에 대한 트리의 성능은 일반적으로 트리가 새 데이터에 대해 수행하는 방식을 더 잘 표현합니다. 검정 데이터와 학습 데이터 간의 적합 정확도에서 큰 차이점을 조사해야 합니다.

이 그래프에서 터미널 노드 8의 정확도는 다른 터미널 노드보다 더 나쁩니까? MSE 값이 더 낮은 노드에 대한 적합치의 정확도에 대해 상대적으로 더 높은 신뢰도를 가질 수 있습니다. 터미널 노드 8에 있는 사례들은 변동을 줄이거나 설명하는 방법이 있는 경우 트리를 개선할 수 있는 최대 기회를 가질 수 있습니다.