Qu'est‑ce que la régression pas à pas ?

La régression pas à pas est un outil automatisé qui permet, dans les phases exploratoires de l'élaboration d'un modèle, d'identifier un sous-ensemble utile de prédicteurs. A chaque étape, le procédé ajoute la variable la plus significative ou supprime la variable la moins significative.

Par exemple, une agence de conseil en immobilier collecte des données sur les ventes réalisées au cours de l'année précédente en vue de prévoir les prix de vente futurs. Avec plus de 100 variables de prévision, la recherche des modèles les plus significatifs peut prendre beaucoup de temps. En guise de point de départ, la fonctionnalité Régression pas à pas de Minitab affiche automatiquement les modèles les plus significatifs, ainsi que les valeurs R2, R2 ajusté, R2 prévu, S et le Cp de Mallows.

Procédures de régression pas à pas courantes

  • La régression pas à pas standard ajoute et supprime des prédicteurs selon les besoins à chaque étape. Minitab interrompt l'opération lorsque toutes les variables qui ne figurent pas dans le modèle possèdent une valeur de p supérieure à la valeur Alpha pour inclure spécifiée et que toutes les variables du modèle possèdent une valeur de p inférieure ou égale à la valeur Alpha pour exclure spécifiée.
  • La sélection ascendante démarre avec un modèle vide et Minitab ajoute le terme le plus significatif à chaque étape. Minitab interrompt l'opération lorsque toutes les variables qui ne figurent pas dans le modèle possèdent une valeur de p supérieure à la valeur Alpha pour inclure spécifiée.
  • L'élimination descendante démarre avec tous les prédicteurs dans le modèle et Minitab supprime la variable la moins significative à chaque étape. Minitab interrompt l'opération lorsque toutes les variables du modèle possèdent une valeur de p inférieure ou égale à la valeur Alpha pour exclure spécifiée.

Problèmes posés par la régression pas à pas

  • Si deux variables de prédiction sont étroitement corrélées, seule l'une d'elles risque de figurer dans le modèle, même si les deux peuvent s'avérer importantes.
  • Etant donné que la procédure ajuste de nombreux modèles, il peut en sélectionner certains qui n'ajustent les données correctement que du fait du hasard.
  • La régression pas à pas n'aboutit pas forcément au modèle détenant la valeur de R2 la plus élevée possible pour un nombre donné de prédicteurs.
  • Les procédures automatiques ne peuvent pas tenir compte des connaissances particulières que l'analyste peut avoir sur les données. Par conséquent, le modèle sélectionné peut ne pas être le meilleur d'un point de vue pratique.
En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique