TreeNet® 회귀 분석를 통한 모형 적합주요 예측 변수 검색에 대한 모형 요약 표

참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

모형 요약 표에 대한 정의 및 해석 지침을 찾습니다.
참고

Minitab은 학습 및 검정 데이터 세트 모두에 대한 결과를 표시합니다. 검정 결과는 모형이 새 관측치에 대한 반응 값을 적절하게 예측할 수 있는지 또는 반응과 예측 변수 간의 관계를 적절하게 요약할 수 있는지를 나타냅니다. 학습 결과를 사용하여 모형의 과도 적합을 평가합니다.

총 예측 변수

TreeNet® 모형에 사용할 수 있는 총 예측 변수 수입니다. 합계는 지정한 계량형 및 범주형 예측 변수의 합계입니다.

중요한 예측 변수

TreeNet® 모형의 중요한 예측 변수 수입니다. 중요 예측 변수는 0.0보다 중요도 점수가 높습니다. 상대 변수 중요도 차트를 사용하여 상대 변수 중요도의 순서를 표시할 수 있습니다. 예를 들어 20개의 예측 변수 중 10개가 모형에서 중요하다고 가정하면 상대 변수 중요도 차트는 변수를 중요도 순서대로 표시합니다.

성장한 트리 수

기본적으로 Minitab은 300개의 작은 CART® 트리를 성장시켜 TreeNet® 모형을 생성합니다. 이 값은 데이터 탐색에 적합하지만 최종 모형을 생성하기 위해 더 많은 트리를 성장시킬지 여부를 고려하십시오. 성장한 트리 수를 변경하려면 옵션 하위 대화 상자로 이동합니다.

최적의 트리 수

최적의 트리 수는 가장 높은 R2 값 또는 가장 낮은 MAD 값에 해당합니다.

최적의 트리 수가 모형이 성장하는 최대 트리 수에 가까우면 더 많은 트리를 사용하는 분석을 고려하십시오. 따라서 300개의 트리를 키우고 최적의 숫자가 298로 돌아오면 더 많은 트리를 사용하여 모형을 다시 빌드하십시오. 최적 수가 최대 수에 계속 가까워지면 트리 수를 계속 늘리십시오.

결정계수

R2는 모형에서 설명하는 반응의 변동 비율입니다. 특이치는 MAD 및 MAPE보다 R2에 더 큰 영향을 미칩니다.

검증 방법을 사용하는 경우 표에는 학습 데이터 세트에 대한 R2 결정계수 통계와 검정 데이터 세트에 대한 R2 결정계수 통계가 포함됩니다. 검증 방법이 K-접기 교차 검증인 경우 모형 빌드에서 해당 접기를 제외할 때 검정 데이터 세트는 각 접기입니다. 검정 R2 결정계수 통계는 일반적으로 새 데이터에 대해 모형이 작동하는 방식을 더 잘 측정합니다.

해석

R2 결정계수를 사용하여 모형이 데이터를 얼마나 적합시키는지 확인합니다. R2 결정계수 값이 높을수록 모형이 데이터를 더 잘 적합시킵니다. R2 결정계수는 항상 0%에서 100% 사이입니다.

서로 다른 R2 결정계수 값의 의미를 그래픽으로 설명할 수 있습니다. 첫 번째 그림은 반응에서 변동의 85.5%를 설명하는 단순 회귀 분석 모형을 보여줍니다. 두 번째 그림은 반응에서 변동의 22.6%를 설명하는 모형을 보여줍니다. 모형에 의해 설명되는 변동이 많을수록 데이터 요소가 적합치에 가까워집니다. 이론적으로 모형이 변동의 100%를 설명할 수 있는 경우 적합치는 항상 관측치와 같으며 모든 데이터 요소가 y = x 선에 해당합니다.

학습 R2보다 실질적으로 적은 검정 R2은 모형이 새 사례에 대한 반응 값을 예측하지 못할 수 있으며 모형이 현재 데이터 세트를 적합함을 나타냅니다.

루트 평균 제곱 오차(RMSE)

루트 평균 제곱 오차(RMSE)는 트리의 정확도를 측정합니다. 특이치는 MAD 및 MAPE보다 RMSE에 더 큰 영향을 미칩니다.

검증 방법을 사용하는 경우 표에는 학습 데이터 세트에 대한 RMSE 통계와 검정 데이터 세트에 대한 RMSE 통계가 포함됩니다. 검증 방법이 k-폴드 교차 검증인 경우 트리 빌드에서 해당 폴드를 제외할 때 검정 데이터 세트는 각 폴드입니다. 검정 RMSE 통계는 일반적으로 새 데이터에 대해 모형이 작동하는 방식을 더 잘 측정합니다.

해석

다른 트리의 적합을 비교하는 데 사용합니다. 값이 작을수록 더 잘 적합함을 나타냅니다. 학습 RMSE보다 훨씬 큰 검정 RMSE는 트리가 새 케이스에 대한 반응 값을 예측하지 못할 수 있으며 트리가 현재 데이터 세트를 적합함을 나타냅니다.

평균 제곱 오차(MSE)

평균 제곱 오차(MSE)는 트리의 정확도를 측정합니다. 특이치는 MAD 및 MAPE보다 MAPE에 더 큰 영향을 미칩니다.

검증 방법을 사용하는 경우 표에는 학습 데이터 세트에 대한 MSE 통계와 검정 데이터 세트에 대한 MSE 통계가 포함됩니다. 검증 방법이 k-폴드 교차 검증인 경우 트리 빌드에서 해당 폴드를 제외할 때 검정 데이터 세트는 각 폴드입니다. 검정 MSE 통계는 일반적으로 새 데이터에 대해 모형이 작동하는 방식을 더 잘 측정합니다.

해석

다른 트리의 적합을 비교하는 데 사용합니다. 값이 작을수록 더 잘 적합함을 나타냅니다. 훈련 MSE보다 훨씬 더 많은 검정 MSE는 트리가 새 케이스에 대한 반응 값을 예측하지 못할 수 있으며 트리가 현재 데이터 세트를 적합함을 나타냅니다.

평균 절대 편차(MAD)

평균 절대 편차(MAD)는 데이터와 동일한 단위로 정확도를 표현하므로 오차 양을 개념화하는 데 도움이 됩니다. 특이치는 R2 결정계수, RMSE 및 MSE보다 MAD에 미치는 영향이 적습니다.

검증 방법을 사용하는 경우 표에는 학습 데이터 세트에 대한 MAD 통계와 검정 데이터 세트에 대한 MAD 통계가 포함됩니다. 검증 방법이 k-폴드 교차 검증인 경우 트리 빌드에서 해당 폴드를 제외할 때 검정 데이터 세트는 각 폴드입니다. 검정 MAD 통계는 일반적으로 새 데이터에 대해 모형이 작동하는 방식을 더 잘 측정합니다.

해석

다른 트리의 적합을 비교하는 데 사용합니다. 값이 작을수록 더 잘 적합함을 나타냅니다. 검정 MAD가 훈련 MAD보다 훨씬 크면 트리가 새 사례에 대한 반응 값을 예측하지 못할 수 있으며 트리가 현재 데이터 집합을 적합함을 나타냅니다.

평균 절대 백분율 오차(MAPE)

평균 절대 백분율 오차(MAPE)는 정확도를 오차의 백분율로 표현합니다. MAPE는 백분율이므로 다른 정확도 측정 통계보다 이해하기가 더 쉬울 수 있습니다. 예를 들어 MAPE가 평균적으로 0.05인 경우 모든 사례에 걸쳐 적합 오차와 실제 값 간의 평균 비율은 5%입니다. 특이치는 R2 결정계수, RMSE 및 MSE보다 MAPE에 미치는 영향이 적습니다.

그러나 트리가 데이터를 잘 적합시키는 것처럼 보이더라도 매우 큰 MAPE 값이 표시될 수 있습니다. 적합 대 실제 반응 값 그림을 검사하여 데이터 값이 0에 가까운지 확인합니다. MAPE는 절대 오차를 실제 데이터로 나누기 때문에 0에 가까운 값은 MAPE를 크게 팽창시킬 수 있습니다.

검증 방법을 사용하는 경우 표에는 학습 데이터 세트에 대한 MAPE 통계와 검정 데이터 세트에 대한 MAPE 통계가 포함됩니다. 검증 방법이 k-폴드 교차 검증인 경우 트리 빌드에서 해당 폴드를 제외할 때 검정 데이터 세트는 각 폴드입니다. 검정 MAPE 통계는 일반적으로 새 데이터에 대해 모형이 작동하는 방식을 더 잘 측정합니다.

해석

다른 트리의 적합을 비교하는 데 사용합니다. 값이 작을수록 더 잘 적합함을 나타냅니다. 학습 MAPE보다 훨씬 더 많은 테스트 MAPE는 트리가 새 사례에 대한 반응 값을 예측하지 못할 수 있으며 트리가 현재 데이터 집합을 적합함을 나타냅니다.