에 대한 모형 요약CART^® 회귀 분석

모형 요약 표의 모든 통계에 대한 정의 및 해석을 찾습니다.

이 항목의 내용

전체 예측 변수
중요한 예측 변수
단말 노드 수
최소 단말 노드 크기
R-제곱

루트 평균 제곱 오차(RMSE)
평균 제곱 오차(MSE)
평균 절대 편차(MAD)
평균 절대 백분율 오차(MAPE)

전체 예측 변수

트리에 사용할 수 있는 총 예측 변수 수입니다. 지정한 계량형 예측 변수와 범주형 예측 변수의 합계입니다.

중요한 예측 변수

트리의 중요한 예측 변수 수입니다. 중요한 예측 변수는 기본 또는 대체 분할로 사용되는 변수입니다.

해석

상대 변수 중요도 그림을 사용하여 상대 변수 중요도의 순서를 표시할 수 있습니다. 예를 들어 20개의 예측 변수 중 10개가 트리에서 중요하다고 가정하면 상대 변수 중요도 그림은 변수를 중요도 순서대로 표시합니다.

단말 노드 수

단말 노드는 더 이상 분할할 수 없는 최종 노드입니다.

해석

단말 노드 정보를 사용하여 예측을 수행할 수 있습니다.

최소 단말 노드 크기

최소 단말 노드 크기는 사례 수가 가장 적은 단말 노드입니다.

해석

기본적으로 Minitab은 단말 노드에 허용되는 최소 사례 수를 3개의 사례로 설정합니다. 그러나 트리의 최소 단말 노드 크기는 분석에서 허용하는 최소 개수보다 클 수 있습니다. 이 분계점 값을 옵션 하위 대화 상자에서 변경할 수 있습니다.

R-제곱

R²는 모형에서 설명하는 반응의 변동 비율입니다. 특이치는 MAD 및 MAPE보다 R²에 더 큰 영향을 미칩니다.

검증 방법을 사용할 때, 표에는 훈련 데이터셋에 R² 통계량과 검증 방법에 대한 R² 통계량이 포함됩니다. 검증 방법이 k-fold 교차 검증일 때, 트리 구축에서 해당 폴드가 제외될 때마다 검증은 각 폴드를 사용합니다. 검증 결과에서 나오는 R² 통계량은 일반적으로 새로운 데이터에 대해 모델이 어떻게 작동하는지 더 잘 측정합니다.

해석

R² 결정계수를 사용하여 모형이 데이터를 얼마나 적합시키는지 확인합니다. R² 결정계수 값이 높을수록 모형이 데이터를 더 잘 적합시킵니다. R² 결정계수는 항상 0%에서 100% 사이입니다.

서로 다른 R² 결정계수 값의 의미를 그래픽으로 설명할 수 있습니다. 첫 번째 그래프는 응답 변동의 85.5%를 설명하는 간단한 회귀 모델을 보여줍니다. 두 번째 그림은 반응 변동의 22.6%를 설명하는 모형을 보여줍니다. 모형에 의해 설명되는 변동이 많을수록 데이터 요소가 적합치에 가까워집니다. 이론적으로 모형이 변동의 100%를 설명할 수 있는 경우 적합치는 항상 관측치와 같으며 모든 데이터 요소가 y = x 선에 해당합니다.

학습 R² 결정계수보다 실질적으로 적은 검증 R² 결정계수는 트리가 새 사례에 대한 반응 값을 예측하지 못할 수 있으며 트리가 현재 데이터 세트를 적합시킴을 나타냅니다.

루트 평균 제곱 오차(RMSE)

루트 평균 제곱 오차(RMSE)는 트리의 정확도를 측정합니다. 특이치는 MAD 및 MAPE보다 MAPE에 더 큰 영향을 미칩니다.

검증 방법을 사용할 때, 표에는 학습 데이터 세트에 대한 RMSE 통계량과 검증 결과에 대한 RMSE 통계량이 포함됩니다. 검증 방법이 k-fold 교차 검증일 때, 트리 구축에서 해당 폴드가 제외될 때마다 검증은 각 폴드를 사용합니다. 검증 RMSE 통계량은 일반적으로 새로운 데이터에 대해 모델이 어떻게 작동하는지 더 잘 측정합니다.

해석

다른 트리의 적합을 비교하는 데 사용합니다. 값이 작을수록 더 잘 적합함을 나타냅니다. 훈련 RMSE보다 훨씬 큰 테스트 RMSE는 트리가 새로운 사례에 대한 응답 값을 잘 예측하지 못할 수 있음을 나타내며, 트리가 현재 데이터 세트에 적합함을 나타냅니다.

평균 제곱 오차(MSE)

평균 제곱 오차(MSE)는 트리의 정확도를 측정합니다. 특이치는 MAD 및 MAPE보다 MAPE에 더 큰 영향을 미칩니다.

검증 방법을 사용할 때, 표에는 학습 데이터 세트에 대한 MSE 통계량과 검증 결과에 대한 MSE 통계량이 포함됩니다. 검증 방법이 k-중개 교차 검증일 때, 모델 구축에서 해당 폴드가 제외될 경우 각 폴드를 사용합니다. 검증 MSE 통계량은 일반적으로 새로운 데이터에 대해 모델이 어떻게 작동하는지 더 잘 측정합니다.

해석

다른 트리의 적합을 비교하는 데 사용합니다. 값이 작을수록 더 잘 적합함을 나타냅니다. 학습 MSE보다 훨씬 많은 검증 MSE는 트리가 새로운 사례의 응답 값을 예측하지 못할 수 있음을 나타내며, 트리가 현재 데이터 세트에 적합함을 나타냅니다.

평균 절대 편차(MAD)

평균 절대 편차(MAD)는 데이터와 동일한 단위로 정확도를 표현하므로 오차 양을 개념화하는 데 도움이 됩니다. 특이치는 R² 결정계수, RMSE 및 MSE보다 MAD에 미치는 영향이 적습니다.

검증 방법을 사용할 때, 표에는 학습 데이터 세트에 대한 MAD 통계량과 검증 결과에 대한 MAD 통계량이 포함됩니다. 검증 방법이 k-중개 교차 검증일 때, 모델 구축에서 해당 폴드가 제외될 경우 각 폴드를 사용합니다. 검증 MAD 통계량은 일반적으로 새로운 데이터에 대해 모델이 어떻게 작동하는지 더 잘 측정합니다.

해석

다른 트리의 적합을 비교하는 데 사용합니다. 값이 작을수록 더 잘 적합함을 나타냅니다. 학습 MAD보다 훨씬 많은 검증 MAD는 트리가 새로운 사례의 응답 값을 예측하지 못할 수 있음을 나타내며, 트리가 현재 데이터 세트에 적합함을 나타냅니다.

평균 절대 백분율 오차(MAPE)

평균 절대 백분율 오차(MAPE)는 정확도를 오차의 백분율로 표현합니다. MAPE는 백분율이므로 다른 정확도 측정 통계보다 이해하기가 더 쉬울 수 있습니다. 예를 들어 MAPE가 평균적으로 0.05인 경우 모든 사례에 걸쳐 적합 오차와 실제 값 간의 평균 비율은 5%입니다. 특이치는 R² 결정계수, RMSE 및 MSE보다 MAPE에 미치는 영향이 적습니다.

그러나 트리가 데이터를 잘 적합시키는 것처럼 보이더라도 매우 큰 MAPE 값이 표시될 수 있습니다. 적합 대 실제 반응 값 그림을 검사하여 데이터 값이 0에 가까운지 확인합니다. MAPE는 절대 오차를 실제 데이터로 나누기 때문에 0에 가까운 값은 MAPE를 크게 팽창시킬 수 있습니다.

검증 방법을 사용할 때, 표에는 학습 데이터 세트에 대한 MAPE 통계량과 검증 결과에 대한 MAPE 통계량이 포함됩니다. 검증 방법이 k-중개 교차 검증일 때, 모델 구축에서 해당 폴드가 제외될 경우 각 폴드를 사용합니다. 검증 MAPE 통계량은 일반적으로 새로운 데이터에 대해 모델이 어떻게 작동하는지 더 잘 측정합니다.

해석

다른 트리의 적합을 비교하는 데 사용합니다. 값이 작을수록 더 잘 적합함을 나타냅니다. 학습 MAPE보다 훨씬 많은 검증 MAPE는 트리가 새로운 사례의 응답 값을 예측하지 못할 수 있음을 나타내며, 트리가 현재 데이터 세트에 적합함을 나타냅니다.

에 대한 모형 요약CART® 회귀 분석