적합 회귀 모형및 선형 회귀에 대한 모델 요약 테이블

모형 요약 표의 모든 통계량에 대한 정의 및 해석을 확인해 보십시오.

이 항목의 내용

S
R-제곱
R-제곱(수정)
PRESS
R-제곱(예측)
AICc 및 BIC
검정 S
검정 결정계수
K-폴드 S
K-폴드 결정계수
K-폴드 단계적 결정계수
Mallows의 Cp

S

S는 데이터 값과 적합치 간 거리의 표준 편차를 나타냅니다. S는 반응값의 단위로 측정됩니다.

해석

S는 모형이 반응을 얼마나 잘 설명하는지 평가하기 위해 사용합니다. S는 반응 변수 단위로 측정되며, 데이터 값이 적합치로부터 얼마나 떨어져 있는지 나타냅니다. S의 값이 낮을수록 모형이 반응을 더 잘 설명합니다. 그러나 낮은 S 값 자체는 모형이 모형 가정을 충족한다는 것을 나타내지 않습니다. 가정을 확인하려면 잔차 그림을 확인해야 합니다.

예를 들어, 한 감자 칩 회사에서 용기당 부스러진 감자 칩의 백분율에 영향을 미치는 요인을 살펴보려고 합니다. 모형을 유의한 예측 변수로 요약하고 S가 1.79로 계산됩니다. 이 결과는 적합치 주변 데이터 점의 표준 편차가 1.79라는 것을 나타냅니다. 모형을 비교하는 경우 1.79보다 작은 값은 더 좋은 적합치를 나타내고 더 큰 값은 더 나쁜 적합치를 나타냅니다.

R-제곱

R²은 모형에 의해 설명되는 반응 내 변동의 백분율입니다. 이 값은 1 빼기 오차 제곱합(모형에 의해 설명되지 않는 변동) 대 총 제곱합(모형 내 총 변동)의 비율입니다.

해석

모형이 데이터를 얼마나 잘 적합시키는지 확인하려면 R²을 사용합니다. R² 값이 클수록 모형이 데이터를 더 잘 적합시킵니다. R²은 항상 0%에서 100% 사이입니다.

적합선 그림을 사용하여 여러 R² 값을 그래픽으로 표시할 수 있습니다. 첫 번째 그림은 반응에 있는 변동의 85.5%를 설명하는 단순 회귀 모형을 나타냅니다. 두 번째 그림은 반응에 있는 변동의 22.6%를 설명하는 모형을 나타냅니다. 모형에서 설명하는 변동이 많을수록 데이터 점이 적합 회귀선에 더 가깝습니다. 이론적으로 모형이 변동의 100%를 설명할 수 있는 경우 적합치는 항상 관측치와 같으며 모든 데이터 점이 적합 회귀선에 가깝습니다. 그러나 R²이 100%이더라도 모형이 반드시 새 관측치를 잘 예측하는 것은 아닙니다.

R² 값을 해석하는 경우 다음과 같은 문제를 고려하십시오.

모형에 예측 변수를 추가하면 R²은 항상 증가합니다. 예를 들어, 최량 예측 변수가 5개인 모형은 최량 예측 변수가 4개인 모형보다 항상 R² 값이 큽니다. 따라서 R²은 같은 크기의 모형을 비교할 때 가장 유용합니다.
작은 표본은 반응과 예측 변수 간 관계의 강도에 대한 정확한 추정치를 제공하지 않습니다. 예를 들어, 더 정확한 R²이 필요하면 더 큰 표본을 사용해야 합니다(일반적으로 40 이상).
적합도 통계량은 모형이 데이터를 얼마나 잘 적합시키는 지에 대한 하나의 측도에 지나지 않습니다. 모형에 바람직한 값이 있더라도 해당 모형이 모형 가정을 충족하는지 확인하려면 잔차 그림을 확인해야 합니다.

R-제곱(수정)

수정 R²은 관측치 수에 상대적인 모형에 있는 예측 변수의 수에 따라 수정되고 모형에 의해 설명되는 반응 내 변동의 백분율입니다. 수정 R²은 1에서 전체 평균 제곱(MS 전체)에 대한 평균 오차 제곱(MSE)을 뺀 값의 비율로 계산됩니다.

해석

예측 변수 수가 다른 여러 모형을 비교하려면 수정 R²을 사용합니다. 모형에 예측 변수를 추가하면 모형이 실제로 개선되지 않더라도 R²은 항상 증가합니다. 수정 R² 값은 모형의 예측 변수 수에 통합되어 올바른 모형을 선택하는 데 도움이 됩니다.

예를 들어, 한 감자 칩 회사에서 용기당 부스러진 감자 칩의 백분율에 영향을 미치는 요인을 살펴보려고 합니다. 전진 단계 방법으로 예측 변수를 추가하면 다음과 같은 결과를 얻습니다.

모형	감자 %	냉각 비율	조리 온도	R²	수정 R²
1	X			52%	51%
2	X	X		63%	62%
3	X	X	X	65%	62%

첫 번째 모형은 50%보다 큰 R²을 생성합니다. 두 번째 모형은 모형에 냉각 비율을 추가합니다. 수정 R²이 중가하며, 이는 냉각 비율이 모형을 개선한다는 것을 나타냅니다. 세 번째 모형은 조리 온도를 추가하며, R²은 증가하지만 수정 R²은 증가하지 않습니다. 이 결과는 조리 온도가 모형을 개선하지 않는다는 것을 나타냅니다. 이 결과를 토대로 모형에서 조리 온도를 제거하는 것을 고려해 볼 수 있습니다.

PRESS

예측 오차 제곱합(PRESS)은 적합치와 관측치 사이 편차의 측도입니다. PRESS는 잔차 제곱의 합인 잔차 오차의 제곱합(SSE)과 유사합니다. 그러나 PRESS는 다른 방법으로 잔차를 계산합니다. PRESS를 계산하기 위해 사용되는 공식은 데이터 집합에서 각 관측치를 체계적으로 제거하고 회귀 방정식을 추정하며 모형이 제거된 관측치를 얼마나 잘 예측하는지 결정하는 절차와 동일합니다.

해석

예측 제곱합(PRESS)을 사용하여 모형의 예측 능력을 평가할 수 있습니다. 일반적으로 예측 제곱합(PRESS) 값이 작을수록 모형의 예측 능력이 좋습니다. Minitab에서는 PRESS를 사용하여 일반적으로 해석하는 데 더 직관적인 예측 R²을 계산합니다. 또한 이 통계량을 사용하면 모형이 과적합되지 않습니다. 모집단에서 중요하지 않은 효과에 대한 항을 추가할 경우 과다 적합 모형이 발생할 수 있습니다. 모형이 표본 데이터에 따라 조정되므로, 모집단에 대해 예측하는 데 유용하지 않을 수도 있습니다.

R-제곱(예측)

예측 R²는 데이터 집합에서 각 관측치를 체계적으로 제거하고 회귀 방정식을 추정하며 모형이 제거된 관측치를 얼마나 잘 예측하는지 결정하는 것과 동일한 공식을 사용하여 계산됩니다. 예측 R² 값의 범위는 0%와 100% 사이입니다. (계산 결과 예측 R² 값이 음수가 될 수 있지만, Minitab에서는 이 경우 0을 표시합니다.)

해석

모형의 새 관측치에 대한 반응을 얼마나 잘 예측하는지 확인하려면 예측 R²을 사용합니다. 모형의 예측 R² 값이 클수록 예측 능력이 더 좋습니다.

예측 R²이 R²보다 상당히 작으면 모형이 과다 적합하다는 것을 나타낼 수도 있습니다. 모집단에서 중요하지 않은 효과에 대한 항을 추가할 경우 과다 적합 모형이 발생할 수 있습니다. 모형이 표본 데이터에 따라 조정되므로, 모집단에 대해 예측 시 유용하지 않을 수도 있습니다.

예측 R²은 또한 모형 계산에 포함되지 않은 관측치를 사용하여 계산되므로, 모형을 비교할 때 수정 R²보다 유용할 수 있습니다.

예를 들어, 한 금융 컨설팅 회사의 분석가가 미래 시장 조건을 예측하기 위한 모형을 개발합니다. 개발하는 모형의 R²이 87%이기 때문에 가능성이 있는 것으로 표시됩니다. 그러나 예측 R²은 52%에 지나지 않으므로, 모형이 과다 적합할 수도 있음을 나타냅니다.

AICc 및 BIC

교정된 AICc(Akaike Information Criterion) 및 BIC(Bayesian Information Criterion)는 모형의 적합치와 항 수를 설명하는 모형의 상대적 품질 측도입니다.

해석

여러 모형을 비교하려면 AICc 및 BIC를 사용합니다. 작은 값을 사용하는 것이 바람직합니다. 그러나 예측 변수 집합에 대한 값이 가장 작은 모형이 반드시 데이터를 잘 적합시키는 것은 아닙니다. 또한 검정과 잔차 그림을 사용하여 모형이 데이터를 얼마나 잘 적합시키는지 평가하십시오.

AICc와 BIC 모두 모형의 우도를 평가한 다음 모형에 항을 추가하는 데 대한 벌칙을 적용합니다. 벌칙은 모형을 표본데이터에 과다 적합하는 경향을 줄입니다. 이에 따라 일반적으로 더 잘 수행되는 모형이 생성됩니다.

일반 지침에 따라, 모수 수가 표본 크기에 비해 작은 경우 AICc보다 BIC가 각 모수의 추가에 대한 벌칙이 더 큽니다. 이러한 경우 BIC를 최소화하는 모형이 AICc를 최소화하는 모형보다 더 작은 경향이 있습니다.

선별 설계와 같은 몇 가지 일반적인 경우, 모수의 수가 일반적으로 표본 크기에 비해 큽니다. 이러한 경우 AICc를 최소화하는 모형이 BIC를 최소화하는 모형보다 더 작은 경향이 있습니다. 예를 들어, 13-런 확정 선별 설계의 경우 모수가 6개 이상인 모형의 집합 중에서 AICc를 최소화하는 모형이 BIC를 최소화하는 모형보다 더 작은 경향이 있습니다.

AICc 및 BIC에 대한 자세한 내용은 Burnham and Anderson.¹

검정 S

검정 S는 검정 데이터 세트의 데이터 값과 적합치 사이의 거리를 요약합니다. 검정 S는 반응 단위로 측정됩니다.

해석

검정 S를 사용하여 새 데이터에 대한 모형의 성능을 평가합니다. 검정 S 값이 낮을수록 모형의 예측치가 테스트 검정 세트의 실제 값에 더 가깝습니다.

검정 S 값보다 실질적으로 적은 S 값은 모형이 과도하게 적합하다는 것을 나타낼 수 있습니다. 과도 적합 모형은 모집단에서 중요하지 않은 효과에 대한 항을 추가할 때 발생합니다. 모형은 표본 데이터에 맞게 조정되므로 모집단에 대한 예측을 만드는 데 유용하지 않을 수 있습니다.

예를 들어, 컨테이너당 부서진 칩의 백분율에 영향을 미치는 요인을 검사하는 감자칩 회사에서 일합니다. 모형을 중요한 예측 변수로 줄이고 S가 1.79이지만 검정 S는 17.63임을 발견합니다. 검정 S는 학습 세트의 S와 매우 다르기 때문에 검정 S가 새 데이터에 대해 모형의 성능을 더 잘 나타낼 수 있음을 결정합니다.

낮은 검정 S 값 자체는 모형이 모형 가정을 충족한다는 것을 나타내지 않습니다. 잔차 그림을 확인하여 가정을 확인해야 합니다.

검정 결정계수

검정 결정계수는 모형이 설명하는 검정 데이터 세트의 반응 변수에서 변동의 백분율입니다. 검정 결정계수의 값 범위는 0%에서 100% 사이입니다. (검정 결정계수에 대한 계산은 음수 값을 생성할 수 있지만, 이러한 경우 Minitab Statistical Software는 0을 표시합니다.)

해석

검정 결정계수를 사용하여 모형이 새 데이터를 얼마나 적합시키는지 확인합니다. 검정 결정계수 값이 더 큰 모형은 새 데이터에서 더 나은 성능을 발휘하는 경향이 있습니다. 검정 결정계수를 사용하여 다른 모형의 성능을 비교할 수 있습니다.

검정 결정계수보다 실질적으로 적은 결정계수는 모형이 과도하게 적합하다는 것을 나타낼 수 있습니다. 과도 적합 모형은 모집단에서 중요하지 않은 효과에 대한 항을 추가할 때 발생합니다. 모형은 학습 데이터에 맞게 조정되므로 모집단에 대한 예측을 만드는 데 유용하지 않을 수 있습니다.

예를 들어, 금융 컨설팅 회사의 애널리스트는 미래의 시장 상황을 예측하는 모형을 개발합니다. 이 모형은 87%의 결정계수를 가지고 있기 때문에 유망해 보입니다. 그러나 검정 결정계수는 52%이며 이는 모형이 과도하게 적합할 수 있음을 나타냅니다.

높은 검정 결정계수 값 자체는 모형이 모형 가정을 충족한다는 것을 나타내지 않습니다. 잔차 그림을 확인하여 가정을 확인해야 합니다.

K-폴드 S

K-폴드 S는 검정 데이터 세트의 데이터 값과 적합치 사이의 거리를 요약합니다. K-폴드 S는 반응 단위로 측정됩니다.

해석

K-폴드 S를 사용하여 새 데이터에 대한 모형의 성능을 평가합니다. K-폴드 S의 값이 낮을수록 모형의 예측치는 폴드의 데이터가 모형 추정에 포함되지 않을 때 폴드의 실제 값에 더 가깝습니다.

K-폴드 S 값보다 실질적으로 적은 S 값은 모형이 과도하게 적합하다는 것을 나타낼 수 있습니다. 과도 적합 모형은 모집단에서 중요하지 않은 효과에 대한 항을 추가할 때 발생합니다. 모형은 표본 데이터에 맞게 조정되므로 모집단에 대한 예측을 만드는 데 유용하지 않을 수 있습니다.

예를 들어, 컨테이너당 부서진 칩의 백분율에 영향을 미치는 요인을 검사하는 감자칩 회사에서 일합니다. 모형을 중요한 예측 변수로 줄이고 S가 1.79이지만 K-폴드 S는 17.63임을 발견합니다. K-폴드 S는 학습 세트의 S와 매우 다르기 때문에 K-폴드 S가 새 데이터에 대해 모형의 성능을 더 잘 나타낼 수 있음을 결정합니다.

낮은 K-폴드 S 값 자체는 모형이 모형 가정을 충족한다는 것을 나타내지 않습니다. 잔차 그림을 확인하여 가정을 확인해야 합니다.

K-폴드 결정계수

K-폴드 결정계수는 모형이 설명하는 데이터 폴드의 반응 변수에서 변동의 백분율입니다. K-폴드 결정계수의 값 범위는 0%에서 100% 사이입니다. (K-폴드 결정계수에 대한 계산은 음수 값을 생성할 수 있지만, 이러한 경우 Minitab Statistical Software는 0을 표시합니다.)

해석

K-폴드 결정계수를 사용하여 모형이 새 데이터를 얼마나 적합시키는지 확인합니다. K-폴드 결정계수 값이 더 큰 모형은 새 데이터에서 더 나은 성능을 발휘하는 경향이 있습니다. K-폴드 결정계수를 사용하여 다른 모형의 성능을 비교할 수 있습니다.

K-폴드 결정계수보다 실질적으로 적은 결정계수는 모형이 과도하게 적합하다는 것을 나타낼 수 있습니다. 과도 적합 모형은 모집단에서 중요하지 않은 효과에 대한 항을 추가할 때 발생합니다. 모형은 학습 데이터에 맞게 조정되므로 모집단에 대한 예측을 만드는 데 유용하지 않을 수 있습니다.

예를 들어, 금융 컨설팅 회사의 애널리스트는 미래의 시장 상황을 예측하는 모형을 개발합니다. 이 모형은 87%의 결정계수를 가지고 있기 때문에 유망해 보입니다. 그러나 K-폴드 결정계수는 52%이며 이는 모형이 과도하게 적합할 수 있음을 나타냅니다.

높은 K-폴드 결정계수 값 자체는 모형이 모형 가정을 충족한다는 것을 나타내지 않습니다. 잔차 그림을 확인하여 가정을 확인해야 합니다.

K-폴드 단계적 결정계수

K-폴드 단계적 결정계수는 후보 조건 집합에서 모형의 항 수를 평가합니다. Minitab은 k-폴드 단계적 결정계수에 대해 음수 값을 표시합니다.

해석

k-폴드 단계적 결정계수를 사용하여 모형의 항 수를 결정합니다. Minitab은 k-폴드 교차 검증으로 검증을 사용하여 전진 선택을 수행할 때 k-폴드 단계적 결정계수를 계산합니다. K-폴드 단계적 결정계수는 각 폴드에 대해 별도의 전진 선택에서 발생합니다. Minitab은 k-폴드 단계적 결정계수를 사용하여 전진 선택에서 최상의 단계를 결정합니다. 각 폴드에 대해 전진 선택이 완료되면 Minitab은 전체 데이터 세트에서 전진 선택을 수행합니다. 전체 데이터 세트를 통해 Minitab은 k-폴드 단계적 결정계수 기준에 따라 최상의 단계에서 모형에 대한 회귀 결과를 생성합니다.

k-폴드 교차 검증을 사용하여 모형의 예측 성능을 평가하려면 대신 k-폴드 결정계수 통계를 사용합니다.

Mallows의 Cp

Mallows의 Cp를 사용하면 여러 회귀 모형 중에서 하나를 선택하는 데 도움이 됩니다. Mallows의 Cp는 완전 모형을 예측 변수 부분 집합을 갖는 모형과 비교합니다. Mallows의 Cp는 모형 내 예측 변수 개수의 균형을 맞추는 데 유용합니다. 예측 변수가 너무 많은 모형은 비교적 정밀도가 떨어지는 반면에 예측 변수가 너무 적은 모형은 치우침이 있는 추정치를 만들어냅니다. Mallows의 Cp를 이용한 회귀 분석 모형의 비교는 동일한 예측 변수의 전체 집합을 사용하여 시작할 경우에만 유효합니다.

해석

Mallows의 Cp 값이 예측 변수의 수에 상수를 더한 값에 가까우면 모형이 비교적 정밀하며 치우침이 없는 추정치를 산출한다는 것을 나타냅니다.

Mallows의 Cp 값이 예측 변수 개수에 상수를 더한 값보다 크면 모형이 치우쳐 있으며 데이터를 잘 적합하지 못한다는 것을 나타냅니다.

¹ Burnham, K. P., & Anderson, D. R. (2004). Multimodel inference: Understanding AIC and BIC in model selection을 참조하십시오. Sociological Methods & Research, 33(2), 261-304. doi:10.1177/0049124104268644