Un análisis de regresión genera una ecuación para describir la relación estadística entre uno o más predictores y la variable de respuesta y para predecir nuevas observaciones. La regresión lineal generalmente utiliza el método de estimación de mínimos cuadrados ordinarios, del cual se obtiene la ecuación al minimizar la suma de los residuos al cuadrado.
Por ejemplo, usted trabaja para una compañía de chips de patatas que analiza los factores que afectan el porcentaje de chips desmenuzados por contenedor antes del envío (la variable de respuesta). Usted lleva a cabo el análisis de regresión e incluye el porcentaje de patatas con respecto a otros ingredientes y la temperatura de cocción (grados centígrados) como su dos predictores. La siguiente es una tabla de los resultados.
Los modelos con un predictor se denominan regresión simple. Los modelos con más de un predictor se conocen como regresión lineal múltiple.
La regresión lineal simple examina la relación lineal entre dos variables continuas: una respuesta (Y) y un predictor (X). Cuando las dos variables están relacionadas, es posible predecir un valor de respuesta a partir de un valor predictor con una exactitud mayor que la asociada únicamente a las probabilidades.
La regresión lineal múltiple examina las relaciones lineales entre una respuesta continua y dos o más predictores.
Si el número de predictores es grande, antes de ajustar un modelo de regresión con todos los predictores, se deberían utilizar las técnicas de selección de modelo paso a paso o de los mejores subconjuntos para excluir los predictores que no estén asociados con las respuestas.
En la regresión de mínimos cuadrados ordinarios (OLS), la ecuación estimada se calcula determinando la ecuación que minimiza la suma de las distancias al cuadrado entre los puntos de los datos de la muestra y los valores pronosticados por la ecuación.
Puesto que la regresión OLS proporcionará las mejores estimaciones solo cuando se cumplan todos estos supuestos, es muy importante evaluarlos. Los métodos comunes incluyen examinar gráficas de residuos, usar pruebas de falta de ajuste y ver la correlación entre los predictores usando el factor de inflación de la varianza (FIV).