¿Qué es la multicolinealidad?

La multicolinealidad en regresión es una condición que ocurre cuando algunas variables predictoras incluidas en el modelo están correlacionadas con otras variables predictoras. La multicolinealidad severa es problemática, porque puede incrementar la varianza de los coeficientes de regresión, haciéndolos inestables. Las siguientes son algunas de las consecuencias de los coeficientes inestables:
  • Los coeficientes pueden parecer insignificantes incluso cuando exista una relación significativa entre el predictor y la respuesta.
  • Los coeficientes de los predictores muy correlacionados variarán ampliamente de una muestra a otra.
  • La eliminación de cualquier término muy correlacionado del modelo afectará considerablemente los coeficientes estimados de los demás términos muy correlacionados. Los coeficientes de los términos muy correlacionados incluso pueden tener el signo equivocado.

Para medir la multicolinealidad, usted puede examinar la estructura de correlación de las variables predictoras. También puede examinar los factores de inflación de la varianza (FIV). Los FIV miden qué tanto aumenta la varianza de un coeficiente de regresión estimado aumenta si los predictores están correlacionados. Si todos los FIV son 1, no hay multicolinealidad, pero si algunos FIV son mayores que 1, los predictores están correlacionados. Cuando un FIV es > 5, el coeficiente de regresión para ese término no se estima adecuadamente.

Otra medida de multicolinealidad es el número de condición. Minitab proporciona el número de condición en la tabla expandida para Regresión de los mejores subconjuntos. El número de condición evalúa la multicolinealidad de todo un modelo en lugar de términos individuales. Mientras mayor sea el número de condición, más multicolineales serán los términos del modelo. Montgomery, Peck y Vining1 sugieren que un número de condición mayor de 100 indica multicolinealidad moderada. Cuando la multicolinealidad es moderada o peor, usted debería utilizar los FIV y la estructura de correlación de los datos para investigar las relaciones entre los términos del modelo.

Si la correlación de un predictor con otros predictores es casi perfecta, Minitab muestra un mensaje indicando que el término no se puede estimar. Los valores de FIV para los términos que no se pueden estimar por lo general superan un mil millones.

La multicolinealidad no afecta la bondad de ajuste ni la bondad de predicción. Los coeficientes (función discriminante lineal) no pueden interpretarse de forma fiable, pero los valores (clasificados) ajustados no se ven afectados.

Nota

La multicolinealidad tiene el mismo efecto en el análisis discriminante que en regresión.

Maneras de corregir la multicolinealidad

Soluciones posibles para la multicolinealidad severa:
  • Si está ajustando polinomios, reste la media del predictor a los valores de los predictores.
  • Elimine del modelo los predictores muy correlacionados. Puesto que suministran información redundante, su eliminación no suele reducir drásticamente el R2. Considere usar la regresión escalonada, la regresión de los mejores subconjuntos o el conocimiento especializado del conjunto de datos para eliminar estas variables.
  • Utilice Cuadrados mínimos parciales o Análisis de los componentes principales. Estos métodos reducen el número de predictores a un conjunto más pequeño de componentes no correlacionados.

Por ejemplo, un fabricante de juguetes desea predecir la satisfacción del cliente e incluye "resistencia" y "falta de roturas" como variables predictoras en el modelo de regresión. El investigador determina que estas dos variables tienen una fuerte correlación negativa y un FIV mayor que 5. En este punto, el investigador podría intentar eliminar cualquiera de las dos variables. El investigador también podría usar Cuadrados mínimos parciales o Análisis de los componentes principales para usar estas variables relacionadas para crear un componente de "durabilidad".

1 Montgomery, D. C., Peck, E. A., y Vining, G. G. (2012). Introduction to linear regression analysis (5th ed.). Hoboken, NJ: Wiley.