회귀 분석의 다중 공선성

이 항목의 내용

다중 공선성의 정의
다중 공선성을 해결하는 방법

다중 공선성의 정의

회귀 분석의 다중 공선성은 모형의 일부 예측 변수가 다른 예측 변수와 상관되어 있을 때 발생하는 조건입니다. 중대한 다중 공선성은 회귀 계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 됩니다. 다음은 불안정적인 계수의 일부 결과입니다.

예측 변수와 반응 간에 유의한 관계가 존재하는 경우에도 계수가 유의하지 않은 것으로 보일 수 있습니다.
높은 상관 관계가 있는 예측 변수에 대한 계수는 표본에 따라 크게 달라질 수 있습니다.
높은 상관 관계가 있는 모형 항을 제거하면 높은 상관 관계가 있는 다른 항의 추정 계수에 크게 영향을 미칩니다. 높은 상관 관계가 있는 항의 계수 부호가 잘못되었을 수도 있습니다.

다중 공선성을 측정하기 위해 예측 변수의 상관 구조를 검사할 수 있습니다. 모형에 있는 회귀 계수의 분산 팽창 인수(VIF)를 조사할 수도 있습니다. VIF는 예측 변수가 상관 관계에 있는 경우 추정된 회귀 계수의 분산이 증가하는 정도를 측정합니다. 모든 VIF가 1이면 다중 공선성이 없지만 일부 VIF가 1보다 크면 예측 변수 간에 완만한 상관 관계가 있을 수 있습니다. VIF가 5보다 크면 회귀 계수가 잘못 추정된 것입니다.

다중 공선성의 또 다른 측도는 조건 수입니다. Minitab에서는 최량 부분 집합 회귀 분석에 대한 확장된 표에 조건 수를 제공합니다. 조건 수는 개별 항이 아니라 전체 모형에 대한 다중 공선성을 평가합니다. 조건 수가 클수록 모형에 있는 항의 다중 공선성이 높습니다. Montgomery, Peck, and Vining¹ 에 따르면 100보다 큰 조건 수는 완만한 다중 공선성을 나타냅니다. 다중 공선성이 완만하거나 더 나쁘면 VIF 및 데이터의 상관 구조를 사용하여 모형 내 항 사이의 관계를 조사해야 합니다.

한 예측 변수와 다른 예측 변수 사이에 거의 완벽한 상관 관계가 있으면 Minitab은 항을 추정할 수 없다는 메시지를 표시합니다. 추정할 수 없는 항에 대한 VIF 값은 보통 10억을 초과합니다.

다중 공선성은 적합도와 예측도에 영향을 미치지 않습니다. 계수(선형 판별 함수)는 안정적으로 해석할 수 없지만 적합치(분류)는 영향을 받지 않습니다.

참고

다중 공선성은 판별 분석에서도 회귀 분석에서와 동일한 효과가 있습니다.

다중 공선성을 해결하는 방법

중대한 다중 공선성의 해결 방법:

다항식을 적합시키는 경우 예측 변수의 평균을 예측 변수 값에서 뺍니다.
높은 상관 관계가 있는 예측 변수를 모형에서 제거합니다. 이러한 예측 변수는 반복적인 정보를 제공하기 때문에 모형에서 제거해도 대부분 R²이 많이 줄어들지 않습니다. 이 변수들을 제거하려면 단계적 회귀 분석, 최량 부분 집합 회귀 분석 또는 데이터 집합에 대한 특별한 지식을 사용합니다.
부분 최소 제곱 또는 주성분 분석을 사용합니다. 이 방법들은 예측 변수의 수를 상관되지 않은 성분들의 더 작은 집합으로 줄입니다.

예를 들어 한 장난감 제조업체에서 조사 결과로부터 고객의 만족도를 예측하려고 하며 "강도"와 "파손 방지성"을 회귀 분석 모형의 예측 변수로 포함합니다. 검사자의 확인 결과 두 변수는 음의 방향으로 강하게 상관되어 있으며 VIF가 5보다 큽니다. 이 시점에서 검사자는 두 가지 변수 중 하나를 제거해 볼 수 있습니다. 검사자는 또한 부분 최소 제곱 또는 주성분 분석을 사용하여 "내구성" 원소를 만들기 위해 이러한 관련 변수를 사용할 수 있습니다.

¹ Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to linear regression analysis (5th ed.). Hoboken, NJ: Wiley.