다중 공선성의 정의

회귀 분석의 다중 공선성은 모형의 일부 예측 변수가 다른 예측 변수와 상관되어 있을 때 발생하는 조건입니다. 중대한 다중 공선성은 회귀 계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 됩니다. 다음은 불안정적인 계수의 일부 결과입니다.
  • 예측 변수와 반응 간에 유의한 관계가 존재하는 경우에도 계수가 유의하지 않은 것으로 보일 수 있습니다.
  • 높은 상관 관계가 있는 예측 변수에 대한 계수는 표본에 따라 크게 달라질 수 있습니다.
  • 높은 상관 관계가 있는 모형 항을 제거하면 높은 상관 관계가 있는 다른 항의 추정 계수에 크게 영향을 미칩니다. 높은 상관 관계가 있는 항의 계수 부호가 잘못되었을 수도 있습니다.

다중 공선성을 측정하기 위해 예측 변수의 상관 구조를 검사할 수 있습니다. 분산 팽창 인수(VIF)를 조사할 수도 있습니다. VIF는 예측 변수가 상관 관계에 있는 경우 추정된 회귀 계수의 분산이 증가하는 정도를 측정합니다. 모든 VIF가 1이면 다중 공선성이 없지만 일부 VIF가 1보다 크면 예측 변수 간에 완만한 상관 관계가 있을 수 있습니다. VIF가 5보다 크면 회귀 계수가 잘못 추정된 것입니다. 한 예측 변수와 다른 예측 변수 사이에 거의 완벽한 상관 관계가 있으면 Minitab은 항을 추정할 수 없다는 메시지를 표시합니다. 추정할 수 없는 항에 대한 VIF 값은 보통 10억을 초과합니다.

Multicollinearity does not affect the goodness of fit and the goodness of prediction. The coefficients (linear discriminant function) cannot be interpreted reliably, but the fitted (classified) values are not affected.

참고

다중 공선성은 판별 분석에서도 회귀 분석에서와 동일한 효과가 있습니다.

Minitab이 회귀 분석에서 높은 상관 관계가 있는 예측 변수를 제거하는 방법

회귀 방정식에서 높은 상관 관계가 있는 예측 변수를 제거하기 위해 Minitab에서는 다음 단계를 수행합니다.
  1. Minitab에서 X-행렬에 대해 QR 분해를 수행합니다.
    참고

    QR 분해를 사용하여 R2을 계산하는 것이 최소제곱법을 사용하는 것보다 빠릅니다.

  2. Minitab에서 하나의 예측 변수를 다른 모든 예측 변수에 대해 회귀 분석하고 R2 값을 계산합니다. 1 - R2 < 4 * 2.22e-016인 경우 예측 변수는 검정을 통과하지 못하며 모형에서 제거됩니다.
  3. Minitab에서 나머지 예측 변수에 대해 1, 2단계를 반복합니다.

모형에 예측 변수 X1, X2, X3, X4, X5 및 반응 Y가 포함되어 있다고 가정합니다. Minitab에서 다음 작업을 수행합니다.
  1. Minitab에서 X5를 X1-X4에 대해 회귀 분석합니다. 1 - R2이 4 * 2.22e-016보다 크면 X5가 방정식에 남아 있게 됩니다. X5는 검정을 통과하고 방정식에 남아 있습니다.
  2. Minitab에서 X1, X2, X3, X5에 대해 X4를 회귀 분석합니다. 이 회귀 분석에 대한 1 - R2이 4 * 2.22e-016보다 크고 방정식에 남아 있다고 가정합니다.
  3. Minitab에서 X1, X2, X4, X5에 대해 X3을 회귀 분석하고 R2 값을 계산합니다. X3은 검정을 통과하지 못하며 방정식에서 제거됩니다.
  4. Minitab에서 X-행렬에 대해 새로운 QR 분해를 수행하고 나머지 예측 변수 X1, X4, X5에 대해 X2를 회귀 분석합니다. X2는 검정을 통과합니다.
  5. Minitab에서 X2, X4, X5에 대해 X1을 회귀 분석합니다. X1은 검정을 통과하지 못하며 방정식에서 제거됩니다.

Minitab에서 X2, X4, X5에 대해 Y를 회귀 분석합니다. 예측 변수 X1 및 X3을 추정할 수 없으며 모형에서 제거되었다는 메시지가 표시됩니다.

참고

TOLERANCE 하위 명령을 REGRESS 세션 명령과 함께 사용하여 Minitab에서 다른 예측 변수와 높은 상관 관계가 있는 예측 변수를 모형에 유지하도록 할 수 있습니다. 그러나 공차를 낮추는 것은 위험하며 숫자가 부정확해질 수 있습니다.

다중 공선성을 해결하는 방법

중대한 다중 공선성의 가능한 해결 방법:
  • 다항식을 적합시키는 경우 예측 변수의 평균을 예측 변수 값에서 뺍니다.
  • 높은 상관 관계가 있는 예측 변수를 모형에서 제거합니다. 이러한 예측 변수는 반복적인 정보를 제공하기 때문에 모형에서 제거하면 대부분 R2이 상당히 줄어듭니다. 이 변수들을 제거하려면 단계적 회귀 분석, 최량 부분 집합 회귀 분석 또는 데이터 집합에 대한 특별한 지식을 사용합니다.
  • Use 부분 최소 제곱 or 주성분 분석. These methods reduce the number of predictors to a smaller set of uncorrelated components.

For example, a toy manufacturer wants to predict customer satisfaction and includes "strength" and "lack of breakage" as predictor variables in the regression model. The investigator determines that these two variables are strongly negatively correlated and have a VIF greater than 5. At this point, the investigator could try removing either variable. The investigator could also use 부분 최소 제곱 or 주성분 분석 to use these related variables to create a "durability" component.

이 사이트를 사용하면 분석 및 사용자 개인 컨텐츠에 대한 쿠키 사용에 동의하는 것입니다.  당사의 개인정보 보호정책을 확인하십시오