¿Qué es la multicolinealidad?

La multicolinealidad en regresión es una condición que ocurre cuando algunas variables predictoras incluidas en el modelo están correlacionadas con otras variables predictoras. La multicolinealidad severa es problemática, porque puede incrementar la varianza de los coeficientes de regresión, haciéndolos inestables. Las siguientes son algunas de las consecuencias de los coeficientes inestables:
  • Los coeficientes pueden parecer insignificantes incluso cuando exista una relación significativa entre el predictor y la respuesta.
  • Los coeficientes de los predictores muy correlacionados variarán ampliamente de una muestra a otra.
  • La eliminación de cualquier término muy correlacionado del modelo afectará considerablemente los coeficientes estimados de los demás términos muy correlacionados. Los coeficientes de los términos muy correlacionados incluso pueden tener el signo equivocado.

Para medir la multicolinealidad, usted puede examinar la estructura de correlación de las variables predictoras. También puede examinar los factores de inflación de la varianza (FIV). Los FIV miden qué tanto aumenta la varianza de un coeficiente de regresión estimado aumenta si los predictores están correlacionados. Si todos los FIV son 1, no hay multicolinealidad, pero si algunos FIV son mayores que 1, los predictores están correlacionados. Cuando un FIV es > 5, el coeficiente de regresión para ese término no se estima adecuadamente. Si la correlación de un predictor con otros predictores es casi perfecta, Minitab muestra un mensaje indicando que el término no se puede estimar. Los valores de FIV para los términos que no se pueden estimar por lo general superan un mil millones.

La multicolinealidad no afecta la bondad de ajuste ni la bondad de predicción. Los coeficientes (función discriminante lineal) no pueden interpretarse de forma fiable, pero los valores (clasificados) ajustados no se ven afectados.

Nota

La multicolinealidad tiene el mismo efecto en el análisis discriminante que en regresión.

Cómo elimina Minitab los predictores muy correlacionados de la ecuación de regresión

Para eliminar los predictores muy correlacionados de una ecuación de regresión, Minitab realiza los siguientes pasos:
  1. Minitab realiza una descomposición QR en la matriz X.
    Nota

    Usar la descomposición QR para calcular el R2 es más rápido que usar la regresión de mínimos cuadrados.

  2. Minitab hace la regresión de un predictor sobre todos los demás predictores y calcula el valor de R2. Si 1 - R2 < 4 * 2.22e-016, entonces el predictor no pasa la prueba y es eliminado del modelo.
  3. Minitab repite los pasos 1 y 2 para los predictores restantes.

Ejemplo

Supongamos que un modelo contiene los predictores X1, X2, X3, X4 y X5 y la respuesta Y, Minitab hace lo siguiente:
  1. Minitab hace la regresión de X5 sobre X1-X4. Si 1 - R2 es mayor que 4 * 2.22e-016, entonces X5 permanece en la ecuación. X5 pasa la prueba y permanece en la ecuación.
  2. Minitab hace la regresión de X4 sobre X1, X2, X3 y X5. Supongamos que 1 - R2 para esta regresión es mayor que 4 * 2.22e-016 y, por lo tanto, permanece en la ecuación.
  3. Minitab hace la regresión de X3 sobre X1, X2, X4 y X5 y calcula el valor de R2. X3 no pasa la prueba y es eliminado de la ecuación.
  4. Minitab realiza una nueva descomposición QR sobre la matriz X y hace la regresión de X2 sobre los predictores restantes, X1, X4 y X5. X2 pasa la prueba.
  5. Minitab hace la regresión de X1 sobre X2, X4 y X5. No pasa la prueba y es eliminado de la ecuación.

Minitab hace la regresión de Y sobre X2, X4, X5. Los resultados incluyen un mensaje que indica que los predictores X1 y X3 no se pueden estimar y fueron eliminados del modelo.

Nota

Usted puede usar el subcomando TOLERANCE con el comando de sesión REGRESS para hacer que Minitab mantenga en el modelo un predictor que esté muy correlacionado con otro predictor. Sin embargo, bajar la tolerancia podría ser peligroso debido a la posibilidad de que se produzcan resultados numéricamente inexactos.

Maneras de corregir la multicolinealidad

Soluciones posibles para la multicolinealidad severa:
  • Si está ajustando polinomios, reste la media del predictor a los valores de los predictores.
  • Elimine del modelo los predictores muy correlacionados. Puesto que suministran información redundante, su eliminación no suele reducir drásticamente el R2. Considere usar la regresión escalonada, la regresión de los mejores subconjuntos o el conocimiento especializado del conjunto de datos para eliminar estas variables.
  • Utilice o Análisis de los componentes principales. Estos métodos reducen el número de predictores a un conjunto más pequeño de componentes no correlacionados.

Por ejemplo, un fabricante de juguetes desea predecir la satisfacción del cliente e incluye "resistencia" y "falta de roturas" como variables predictoras en el modelo de regresión. El investigador determina que estas dos variables tienen una fuerte correlación negativa y un FIV mayor que 5. En este punto, el investigador podría intentar eliminar cualquiera de las dos variables. El investigador también podría usar o Análisis de los componentes principales para usar estas variables relacionadas para crear un componente de "durabilidad".

Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado.  Leer nuestra política