Uma análise de regressão gera uma equação para descrever a relação estatística entre um ou mais preditores e a variável de resposta e para predizer novas observações. A regressão linear normalmente usa o método de estimativa de mínimos quadrados ordinários que deriva a equação minimizando a soma dos resíduos quadrados.
Por exemplo, você trabalha para uma empresa fabricante de batatas fritas que está analisando os fatores que afetam a porcentagem de batatas quebradas por embalagem antes da remessa (variável de resposta). Você está conduzindo a análise de regressão e inclui a porcentagem de batatas em relação a outros ingredientes e a temperatura de cozimento (Celsius) como seus dois preditores. A seguir encontra-se uma tabela dos resultados.
Modelos com um preditor são mencionados como regressão simples. Os modelos com mais de um preditor são conhecidos como regressão linear múltipla.
A regressão linear simples examina a relação linear entre duas variáveis contínuas: uma resposta (y) e um preditor (x). Quando as duas variáveis são relacionadas, é possível predizer um valor de resposta de um valor do preditor com exatidão melhor do que a chance.
A regressão linear múltipla examina as relações lineares entre uma resposta contínua e dois ou mais preditores.
Se o número de preditores for grande, antes de ajustar um modelo de regressão com todos os preditores, você deve usar técnicas de seleção de modelo stepwise ou de melhores subconjuntos para remover preditores não associados às respostas.
Na regressão por mínimos quadrados ordinários (OLS), a equação estimada é calculada determinando-se a equação que minimiza a soma do quadrado das distâncias entre os pontos de dados da amostra e os valores preditos pela equação.
Com um preditor (regressão linear simples), a soma dos quadrados das distâncias de cada ponto até a linha é a menor possível.
Aqui, a variável preditora X é elevada ao quadrado para modelar a curvatura. Y = bo + b1X + b2X2
Como a regressão OLS fornecerá as melhores estimativas somente quando todas as suposições forem atendidas, é muito importante testá-las. Abordagens comuns incluem o exame de gráficos de resíduos, usando testes de ajuste e exibindo a correlação entre preditores usando o Fator de Inflação da Variância (VIF).