Une analyse de régression génère une équation pour décrire la relation statistique entre un ou plusieurs prédicteurs et la variable de réponse, ainsi que pour prévoir de nouvelles observations. En règle générale, la régression linéaire utilise la méthode d'estimation par les moindres carrés, qui détermine l'équation en réduisant la somme des valeurs résiduelles mises au carré.
Par exemple, vous travaillez pour un fabricant de pommes chips qui analyse les facteurs affectant le pourcentage de chips brisées par conteneur avant expédition (variable de réponse). Vous effectuez l'analyse de régression et incluez le pourcentage de pomme de terre par rapport aux autres ingrédients et la température de cuisson (Celsius) comme prédicteurs. Le tableau suivant fournit les résultats de l'analyse.
Lorsque les modèles ne comportent qu'un prédicteur, on parle de régression simple. Lorsque les modèles comportent plusieurs prédicteurs, on parle de régression linéaire multiple.
La régression linéaire simple examine la relation linéaire entre deux variables continues : une réponse (Y) et un prédicteur (X). Lorsqu'il existe une relation entre les deux variables, il est possible de prévoir une valeur de réponse à partir de la valeur du prédicteur avec une précision améliorée.
La régression linéaire multiple examine les relations linéaires entre une réponse continue et deux prédicteurs ou plus.
Si le nombre des prédicteurs est important, avant d'ajuster un modèle de régression avec tous les prédicteurs, vous devez utiliser la régression pas à pas ou celle sur les meilleurs sous-ensembles pour sélectionner le modèle en éliminant les prédicteurs non associés aux réponses.
Dans la régression sur les moindres carrés, l'équation estimée correspond à l'équation qui minimise la somme des distances quadratiques entre les points de données de l'échantillon et les valeurs prévues par l'équation.
Etant donné que la régression sur les moindres carrés ne fournit les meilleures estimations que lorsque toutes ces hypothèses sont satisfaites, il est extrêmement important de les tester. Parmi les méthodes courantes figurent l'examen des graphiques des valeurs résiduelles, l'utilisation de tests d'inadéquation de l'ajustement et l'affichage de la corrélation entre les prédicteurs à l'aide du facteur d'inflation de la variance (FIV).