O que é análise de regressão?

Uma análise de regressão gera uma equação para descrever a relação estatística entre uma ou mais preditoras e a variável de resposta e para predizer novas observações. A regressão linear normalmente usa o método de estimativa de mínimos quadrados ordinários que deriva a equação minimizando a soma dos resíduos quadrados.

Por exemplo, você trabalha para uma empresa fabricante de batatas fritas que está analisando os fatores que afetam a porcentagem de batatas quebradas por embalagem antes da remessa (variável de resposta). Você está conduzindo a análise de regressão e inclui a porcentagem de batatas em relação a outros ingredientes e a temperatura de cozimento (Celsius) como suas duas preditoras. A seguir encontra-se uma tabela dos resultados.

Equação de Regressão Batatas quebradas = 4,251 - 0,909 Porcentagem de batata + 0,02231 Temperatura de cozimento
Coeficientes Termo Coef EP de Coef Valor-T Valor-P VIF Constante 4,251 0,659 6,45 0,000 Porcentagem de batata -0,909 0,331 -2,74 0,011 1,03 Temperatura de cozimento 0,02231 0,00332 6,71 0,000 1,03
Sumário do Modelo S R2 R2(aj) R2(pred) 0,115034 66,41% 63,61% 57,96%
Os resultados da regressão mostram que os dois preditores são significantes devido a seus valores p baixos. Juntos, os dois preditores explicam 66,41% da variância das batatas fritas quebradas. Especificamente:
  • Para cada 1 grau de aumento da temperatura de cozimento, o percentual de batatas quebradas deve aumentar em 0,022%.
  • Para predizer o percentual de batatas quebradas para configurações de 0,5 (50%) de batatas e uma temperatura de cozimento de 175 °C, você calcula um valor esperado de 7,7% de batatas quebradas: 4,251 - 0,909 * 0,5 + 0,2231 * 175 = 7,70075.
Os resultados da regressão identificam a direção, o tamanho e a significância estatística da relação entre um preditor e a resposta.
  • O sinal de cada coeficiente indica a direção da relação.
  • Os coeficientes representam a mudança média na resposta para uma unidade de mudança na preditora mantendo constantes as outras preditoras no modelo.
  • O valor-p de cada coeficiente testa a hipótese nula de que o coeficiente é igual à zero (nenhum efeito). Portanto, os valores-p baixos indicam que a preditora é uma adição significativa ao seu modelo.
  • A equação prediz novas observações com valores especificados das preditoras.
Observação

Modelos com uma preditora são mencionados como regressão simples. Os modelos com mais de uma preditora são conhecidos como regressão linear múltipla.

O que é regressão linear simples?

A regressão linear simples examina a relação linear entre duas variáveis contínuas: uma resposta (y) e uma preditora (x). Quando as duas variáveis são relacionadas, é possível predizer um valor de resposta de um valor da preditora com exatidão melhor do que a chance.

A regressão fornece a linha que "melhor" ajusta os dados. Essa linha pode ser usada para:
  • Examinar como a variável de resposta muda quando o preditor muda.
  • Predizer o valor de uma variável de resposta (y) para qualquer variável preditora (x).

O que é regressão linear múltipla?

A regressão linear múltipla examina as relações lineares entre uma resposta contínua e duas ou mais preditoras.

Se o número de preditoras for grande, antes de ajustar um modelo de regressão com todas as preditoras, você deve usar técnicas de seleção de modelo stepwise ou de melhores subconjuntos para remover preditoras não associadas às respostas.

O que é regressão de mínimos quadrados comum?

Na regressão por mínimos quadrados ordinários (OLS), a equação estimada é calculada determinando-se a equação que minimiza a soma do quadrado das distâncias entre os pontos de dados da amostra e os valores preditos pela equação.

Resposta versus Preditor

Com uma preditora (regressão linear simples), a soma dos quadrados das distâncias de cada ponto até a linha é a menor possível.

Pressuposições que deve ser atendidas para regressão OLS

A regressão OLS fornece as estimativas mais precisas e não viciadas somente quando as suposições a seguir são atendidas:
  • O modelo de regressão e linear nos coeficientes. O método mínimos quadrados pode modelar curvatura transformando as variáveis (no lugar dos coeficientes). É necessário especificar a forma funcional correta para modelar qualquer curvatura.
    Modelo Quadrático

    Aqui, a variável preditora X é elevada ao quadrado para modelar a curvatura. Y = bo + b1X + b2X2

  • Os resíduos têm uma média de zero. A inclusão de uma constante no modelo forçará a média a ser igual a zero.
  • Todas as preditoras são não correlacionadas com os resíduos.
  • Os resíduos não são correlacionados) entre si (correlação serial).
  • Os resíduos possuem variância constante.
  • Nenhuma variável preditora é perfeitamente correlacionada (r=1) com uma variável preditora diferente. É melhor evitar correlações imperfeitamente altas (multicolinearidade) também.
  • Os resíduos são normalmente distribuídos.

Como a regressão OLS fornecerá as melhores estimativas somente quando todas as suposições forem atendidas, é muito importante testá-las. Abordagens comuns incluem o exame de gráficos de resíduos, usando testes de ajuste e exibindo a correlação entre preditoras usando o Fator de Inflação da Variância (VIF).

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política