O que é multicolinearidade?

Multicolinearidade em regressão é uma condição que ocorre quando algumas variáveis preditoras no modelo estão correlacionadas a outras variáveis preditoras. A multicolinearidade forte é problemática porque pode aumentar a variância dos coeficientes de regressão, tornando-os instáveis. Apresentamos a seguir algumas das consequências de coeficientes instáveis:
  • Os coeficientes podem parecer insignificantes mesmo quando existe uma relação significativa entre o preditor e a resposta.
  • Coeficientes para preditores altamente correlacionados variam fortemente de amostra para amostra.
  • A remoção de quaisquer termos altamente correlacionadas do modelo afetará significativamente os coeficientes estimados dos outros termos altamente correlacionados. Os coeficientes dos termos altamente correlacionadas pode até mesmo ter o sinal errado.

Para medir multicolinearidade, você pode examinar a estrutura de correlação das variáveis preditoras. Também é possível examinar os fatores de inflação da variância (VIF). Os VIFs medem o quanto a variância de um coeficiente de regressão estimado aumenta se seus preditores estão correlacionados. Se todos os VIFs forem 1, não há multicolinearidade, mas se alguns VIFs forem maiores do que 1, os preditores estão correlacionados. Quando um VIF é 5 > 10, o coeficiente de regressão para esse termo não é estimado de maneira apropriada. Se a correlação de um preditor com outros preditores for quase perfeita, o Minitab exibe uma mensagem informando que o termo não pode ser estimado. Os valores de VIF para termos que não podem ser estimados normalmente excedem a um bilhão.

A multicolinearidade não afeta a qualidade do ajuste e a qualidade da predição. Os coeficientes (função discriminante linear) não podem ser interpretados de forma confiável, mas os valores ajustados (classificados) não são afetados.

Observação

A multicolinearidade tem o mesmo efeito na análise discriminante e na regressão.

Como o MInitab remove preditores fortemente correlacionados da equação de regressão

Para remover preditores fortemente correlacionados da equação de regressão, o Minitab executa as seguintes etapas:
  1. O Minitab executa uma decomposição QR na matriz X.
    Observação

    Usar a decomposição QR para calcular R2 é mais rápido que usar regressão de mínimos quadrados.

  2. O Minitab faz a regressão em todos os outros preditores e calcula o valor R2. Se 1 - R2 < 4 * 2,22e-016, o preditor falha no teste e é removido do modelo.
  3. O Minitab repete as etapas 1 e 2 para os outros preditores.

Exemplo

Suponha que um modelo contém os preditores X1, X2, X3, X4 e X5, e a resposta Y; o MInitab executa o seguinte procedimento:
  1. O Minitab faz a regressão de X5 em X1-X4. Se 1 - R2 for maior que 4 * 2,22e-016, X5 permanece na equação. X5 passa no teste e permanece na equação.
  2. O Minitab faz a regressão de X4 em X1, X2, X3 e X5. Suponha que 1 - R2 para essa regressão é maior que 4 * 2,22e-016 e por isso permanece na equação.
  3. O Minitab faz a regressão de X3 em X1, X2, X4 e X5 e calcula o valor R2. X3 falha no teste e é removido da equação.
  4. O Minitab faz uma nova decomposição QR na matriz X e faz a regressão de X2 nos preditores restantes, X1, X4 e X5. X2 passa no teste.
  5. O Minitab faz a regressão de X1 em X2, X4 e X5. Ele falha no teste e é removido da equação.

O Minitab faz a regressão de Y em X2, X4, X5. Os resultados incluem uma mensagem informando que os preditores X1 e X3 não podem ser estimados e foram removidos do modelo.

Observação

Você pode usar o subcomando TOLERANCE com o comando de sessão REGRESS para forçar o Minitab a manter um preditor altamente correlacionado com outro preditor no modelo. Entretanto, diminuir a tolerância pode ser perigoso, e pode produzir resultados numericamente inexatos.

Formas de corrigir a multicolinearidade

Soluções possíveis para forte multicoliearidade:
  • Ao ajustar polinômios, subtraia a média do preditor dos valores de preditor.
  • Remova preditores fortemente correlacionados do modelo. Como eles fornecem informações redundantes, removê-los normalmente não reduz drasticamente o R2. Pense em usar uma regressão stepwise, regressão de melhores subconjuntos ou conhecimento especializado do conjunto de dados para remover essas variáveis.
  • Use Mínimos Quadrados Parciais ou Análise de Componentes Principais. Esses métodos reduzem o número de preditores para um conjunto menor de componentes não correlacionados.

Por exemplo, um fabricante de brinquedos deseja predizer a satisfação dos clientes e inclui "resistência" e "não quebra" como variáveis preditoras no modelo de regressão. O investigador determina que as duas variáveis são fortemente correlacionadas negativamente e que possuem VIF maior que 5. Nessa hora, o investigador poderia tentar remover qualquer uma das variáveis. Ele também poderia usar Mínimos Quadrados Parciais ou Análise de Componentes Principais para usar essas variáveis relacionadas para criar um componente "durabilidade".

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política