O que é multicolinearidade?

Multicolinearidade em regressão é uma condição que ocorre quando algumas variáveis preditoras no modelo estão correlacionadas a outras variáveis preditoras. A multicolinearidade forte é problemática porque pode aumentar a variância dos coeficientes de regressão, tornando-os instáveis. Apresentamos a seguir algumas das consequências de coeficientes instáveis:
  • Os coeficientes podem parecer insignificantes mesmo quando existe uma relação significativa entre o preditor e a resposta.
  • Coeficientes para preditores altamente correlacionados variam fortemente de amostra para amostra.
  • A remoção de quaisquer termos altamente correlacionadas do modelo afetará significativamente os coeficientes estimados dos outros termos altamente correlacionados. Os coeficientes dos termos altamente correlacionadas pode até mesmo ter o sinal errado.

Para medir multicolinearidade, você pode examinar a estrutura de correlação das variáveis preditoras. Os fatores de inflação da variância (VIFs) dos coeficientes de regressão no modelo. Os VIFs medem o quanto a variância de um coeficiente de regressão estimado aumenta se seus preditores estão correlacionados. Se todos os VIFs forem 1, não há multicolinearidade, mas se alguns VIFs forem maiores do que 1, os preditores estão correlacionados. Quando um VIF é 5 > 10, o coeficiente de regressão para esse termo não é estimado de maneira apropriada.

Outra medida de multicolinearidade é o número da condição. O Minitab fornece o número da condição na tabela expandida para a regressão de melhores subconjuntos. O número da condição avalia a multicolinearidade para um modelo inteiro em vez de termos individuais. Quanto maior o número da condição, maior a multicolinearidade dos termos no modelo. Montgomery, Peck e Vining1 sugerem que um número de condição maior que 100 indica uma multicolinearidade moderada. Quando a multicolinearidade tem um nível moderado ou mais baixo, você deve usar os VIFs e a estrutura de correlação dos dados para investigar as relações entre os termos do modelo.

Se a correlação de um preditor com outros preditores for quase perfeita, o Minitab exibe uma mensagem informando que o termo não pode ser estimado. Os valores de VIF para termos que não podem ser estimados normalmente excedem a um bilhão.

A multicolinearidade não afeta a qualidade do ajuste e a qualidade da predição. Os coeficientes (função discriminante linear) não podem ser interpretados de forma confiável, mas os valores ajustados (classificados) não são afetados.

Observação

A multicolinearidade tem o mesmo efeito na análise discriminante e na regressão.

Formas de corrigir a multicolinearidade

Soluções possíveis para forte multicolinearidade:
  • Ao ajustar polinômios, subtraia a média do preditor dos valores de preditor.
  • Remova preditores fortemente correlacionados do modelo. Como eles fornecem informações redundantes, removê-los normalmente não reduz drasticamente o R2. Pense em usar uma regressão stepwise, regressão de melhores subconjuntos ou conhecimento especializado do conjunto de dados para remover essas variáveis.
  • Use Mínimos Quadrados Parciais ou Análise de Componentes Principais. Esses métodos reduzem o número de preditores para um conjunto menor de componentes não correlacionados.

Por exemplo, um fabricante de brinquedos deseja predizer a satisfação dos clientes e inclui "resistência" e "não quebra" como variáveis preditoras no modelo de regressão. O investigador determina que as duas variáveis são fortemente correlacionadas negativamente e que possuem VIF maior que 5. Nessa hora, o investigador poderia tentar remover qualquer uma das variáveis. Ele também poderia usar Mínimos Quadrados Parciais ou Análise de Componentes Principais para usar essas variáveis relacionadas para criar um componente "durabilidade".

1 Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to linear regression analysis (5th ed.). Hoboken, NJ: Wiley.