Utilisation de la régression pas à pas et de la régression des meilleurs sous-ensembles

Qu’est-ce que la régression par étapes ?

La régression pas à pas est un outil automatisé utilisé dans les étapes exploratoires de la construction d’un modèle pour identifier un sous-ensemble utile de prédicteurs. Le processus ajoute ou supprime systématiquement la variable la moins significative à chaque étape.

Par exemple, une société de conseil sur le marché du logement recueille des données sur les ventes de maisons de l’année précédente dans le but de prédire les prix de vente futurs. Avec plus de 100 variables prédictives, trouver un modèle peut prendre beaucoup de temps. La fonction de régression pas à pas de Minitab identifie automatiquement une séquence de modèles à prendre en compte. Des statistiques telles que AICc, BIC, test R2, R2, R2ajusté, R2prédit, S et Cp de Mallows vous aident à comparer les modèles. Minitab affiche les résultats complets du modèle qui convient le mieux à la procédure par étapes que vous utilisez.

Les analyses suivantes dans Minitab peuvent effectuer automatiquement une sélection par étapes afin que vous puissiez évaluer les statistiques récapitulatives de modèle pour de nombreux modèles potentiels dans un seul ensemble de sortie.
  • Module d'analyse prédictive > Régression linéaire
  • Stat > Régression > Régression > Ajuster le modèle de régression
  • Module d'analyse prédictive > Régression logistique binaire
  • Stat > Régression > Régression logistique binaire > Ajuster le modèle logistique binaire
  • Stat > Régression > Régression de Poisson > Ajuster le modèle de Poisson
  • Stat > ANOVA > Modèle linéaire général > Ajuster le modèle linéaire général
  • Stat > DOE (plan d'expériences) > Criblage > Analyser un plan de criblage
  • Stat > DOE (plan d'expériences) > Criblage > Analyser la réponse binaire
  • Stat > DOE (plan d'expériences) > Plan factoriel > Analyser un plan factoriel
  • Stat > DOE (plan d'expériences) > Plan factoriel > Analyser la réponse binaire
  • Stat > DOE (plan d'expériences) > Surface de réponse > Analyser un plan de surface de réponse
  • Stat > DOE (plan d'expériences) > Surface de réponse > Analyser la réponse binaire

Problèmes de régression pas à pas

Soyez prudent lorsque vous utilisez des procédures de sélection de variables telles que les meilleurs sous-ensembles et la régression par étapes. L’un des problèmes est que ces procédures ne peuvent pas tenir compte des connaissances spéciales que l’analyste pourrait avoir sur les données. La procédure ne peut pas tenir compte de l’importance pratique de l’un ou l’autre des prédicteurs.

Un problème lié à l’incapacité de la procédure à prendre en compte des connaissances spéciales est que lorsque deux prédicteurs sont fortement corrélés, la procédure ne peut sélectionner qu’un seul des deux prédicteurs, même si l’un ou l’autre peut être important. Par exemple, la procédure peut supprimer un prédicteur peu coûteux et facile à mesurer au profit d’un prédicteur corrélé difficile et coûteux à mesurer. L’analyste devrait utiliser sa connaissance des données pour porter des jugements sur des critères que la procédure ne peut pas prendre en compte.

Un autre problème avec les procédures pas à pas est que les différents modèles peuvent optimiser différents critères. Par exemple, le modèle avec la valeur R2 ajustée la plus élevée ne sera pas nécessairement le modèle avec la valeur R2 de test la plus élevée. L’analyste doit tenir compte des différents critères pour sélectionner un modèle final.

De plus, lorsque vous ajustez un modèle à des données, la qualité de l’ajustement provient de deux sources fondamentales :
  • La structure sous-jacente des données (une structure qui s’appliquera à d’autres ensembles de données collectés de la même manière).
  • Les particularités de l’ensemble de données que vous analysez.

Pour vous assurer que votre modèle ne s’adapte pas à un seul ensemble de données spécifique, vous devez vérifier le modèle trouvé par la procédure de sélection sur un nouvel ensemble de données. Vous pouvez également prendre l’ensemble de données d’origine, le diviser au hasard en deux parties, utiliser une partie pour sélectionner un modèle, puis vérifier l’ajustement sur la deuxième partie. Cette procédure permet de s’assurer que le modèle que vous sélectionnez s’appliquera à d’autres ensembles de données. Consultez la section sur les procédures pas à pas avec validation automatique pour en savoir plus sur les commandes qui peuvent partitionner automatiquement vos données et calculer les statistiques de validation.

Procédures par étapes

Toutes les analyses qui incluent des procédures automatiques par étapes dans Minitab incluent les procédures suivantes. Les méthodes suivantes vous permettent d’évaluer rapidement un grand nombre de modèles différents en termes de statistiques récapitulatives de modèle pour les données que vous utilisez pour générer le modèle.

  • La régression pas à pas standard ajoute ou supprime un prédicteur pour chaque étape. Minitab s’arrête lorsque toutes les variables qui ne figurent pas dans le modèle ont des valeurs p supérieures à la valeur alpha à entrer spécifiée et lorsque toutes les variables du modèle ont des valeurs p inférieures ou égales à la valeur alpha à supprimer spécifiée.
  • La procédure des critères d’information directe ajoute le terme ayant la valeur p la plus faible au modèle à chaque étape. Des termes supplémentaires peuvent entrer dans le modèle en 1 étape si les paramètres de l’analyse permettent de prendre en compte des termes non hiérarchiques mais exigent que chaque modèle soit hiérarchique. Minitab calcule les critères d’information pour chaque étape. Dans la plupart des cas, la procédure se poursuit jusqu’à ce que l’une des conditions suivantes se produise :
    • La procédure ne trouve pas de nouveau minimum du critère pour 8 étapes consécutives.
    • La procédure s’adapte au modèle complet.
    • La procédure s’adapte à un modèle qui laisse 1 degré de liberté d’erreur.
    Si vous spécifiez des paramètres pour la procédure qui nécessitent un modèle hiérarchique à chaque étape et n’autorisent la saisie que d’un seul terme à la fois, la procédure se poursuit jusqu’à ce qu’elle s’ajuste au modèle complet ou à un modèle qui laisse 1 degré de liberté d’erreur. Minitab affiche les résultats de l’analyse du modèle avec la valeur minimale du critère d’information sélectionné, AICc ou BIC.
  • La sélection directe commence par un modèle vide ou un modèle avec les termes que vous spécifiez. Ensuite, Minitab ajoute le terme le plus significatif pour chaque étape. Minitab s’arrête lorsque toutes les variables qui ne figurent pas dans le modèle ont des valeurs p supérieures à la valeur alpha à entrer spécifiée.
  • L’élimination en amont commence avec tous les prédicteurs du modèle et Minitab supprime la variable la moins significative pour chaque étape. Minitab s’arrête lorsque toutes les variables du modèle ont des valeurs p inférieures ou égales à la valeur alpha à supprimer spécifiée.

Procédures de régression pas à pas avec validation automatique

Pour les commandes suivantes, l’analyse dans Minitab peut inclure une technique de validation automatique ainsi qu’une procédure par étapes. La validation automatique fait gagner du temps à un analyste qui effectuerait lui-même la validation du modèle après une procédure par étapes. Les commandes suivantes peuvent diviser vos données en un ensemble de données d’entraînement et un ensemble de données de test au cours de la procédure pas à pas :

La procédure par étapes que Minitab peut exécuter automatiquement avec un ensemble de données de test est appelée sélection en aval avec validation avec un ensemble de données de test. Dans cette procédure, le modèle initial est vide ou inclut des termes de modèle que vous sélectionnez spécifiquement. Ensuite, Minitab ajoute le terme potentiel suivant avec la valeur p la plus petite à chaque étape. Minitab calcule la valeur R2 du test pour le modèle à chaque étape en tant que valeur R2 pour le modèle sur l’ensemble de données de test. Les résultats du modèle présentés par Minitab concernent le modèle avec la valeur maximale de la valeur R2 du test.

Pour Ajuster le modèle de régression, vous pouvez choisir une deuxième technique de validation à effectuer avec la sélection par étapes, appelée sélection avant avec validation croisée k-fold. Dans le cadre de la validation croisée par pliage k, Minitab divise l’ensemble de données en k sous-ensembles. Ces sous-ensembles sont appelés plis. Le plus souvent, la validation utilise 10 plis, mais d’autres nombres sont possibles. Les plis ont un nombre d’observations aussi égal que possible. Minitab effectue une sélection avant k fois. Pour chaque sélection vers l’avant, les plis k–1 sont l’ensemble des données d’entraînement et le dernier pli est l’ensemble des données de test. Comme dans d’autres procédures de sélection directe, le modèle initial est vide ou inclut des termes de modèle que vous sélectionnez spécifiquement. Ensuite, Minitab ajoute le terme potentiel suivant avec la valeur p la plus petite à chaque étape. Pour chaque étape, Minitab calcule la valeur R2 par paliers en combinant les informations provenant des différentes procédures de sélection par étapes.

Hiérarchie

Un modèle hiérarchique est un modèle dans lequel, pour chaque terme du modèle, tous les termes d’ordre inférieur qu’il contient doivent également figurer dans le modèle. Par exemple, supposons qu’il existe un modèle avec quatre facteurs : A, B, C et D. Si le terme A * B * C est dans le modèle, alors les termes A, B, C, A*B, A*C et B*C doivent également être dans le modèle, bien que les termes avec D n’aient pas besoin d’être dans le modèle.

Les termes qui entrent ou sortent d’un modèle à une étape dépendent des spécifications de la hiérarchie. Par défaut, Minitab Statistical Software exige un modèle hiérarchique à chaque étape, une hiérarchie pour tous les termes et n’autorise qu’un seul terme à entrer dans le modèle à chaque étape. Ces paramètres limitent les termes que Minitab prend en compte à chaque étape. Par exemple, une interaction bidirectionnelle ne peut pas entrer dans le modèle à moins que les deux termes d’ordre inférieur de l’interaction ne soient déjà dans le modèle. Vous pouvez ajuster ces paramètres en cliquant lorsque Hiérarchie vous sélectionnez une méthode par étapes.

Qu’est-ce que la meilleure régression de sous-ensembles ?

La régression des meilleurs sous-ensembles est un outil automatisé utilisé dans les étapes exploratoires de la construction d’un modèle pour identifier un sous-ensemble utile de prédicteurs. La procédure affiche les résultats récapitulatifs du modèle pour le nombre de modèles que vous demandez pour chaque taille : modèles avec un prédicteur, modèles avec deux prédicteurs, etc. Les modèles qui s’affichent ont les valeurs les plus élevées de R2 parmi les modèles possibles de cette taille. Pour utiliser la régression des meilleurs sous-ensembles dans Minitab, choisissez Stat > Régression > Régression > Meilleurs sous‑ensembles.

En tant que procédure de sélection automatique, la régression des meilleurs sous-ensembles partage de nombreux problèmes avec la régression pas à pas. La procédure ne peut pas utiliser les connaissances spécialisées d’un analyste, et il n’y a aucune garantie que différents critères identifient le même modèle. Les corrélations entre les prédicteurs peuvent rendre plus difficile l’identification des meilleurs modèles. La validation du modèle avec de nouvelles données augmente la confiance que vous pouvez avoir dans les performances du modèle.

Comparaison des meilleurs sous-ensembles : régression et régression pas à pas

Le meilleur sous-ensemble est une analyse de Minitab Statistical Software. La régression par étapes est une option dans plusieurs analyses. Ces deux techniques de sélection automatisée de modèles fournissent des informations sur l’ajustement de plusieurs modèles différents. À partir des différents modèles, vous pouvez identifier les modèles qui méritent une exploration plus approfondie.

Les différences entre les techniques de Minitab peuvent vous aider à décider d’utiliser une technique plutôt qu’une autre ou d’utiliser les deux techniques. Voici quelques points généraux à prendre en compte :
Caractéristique Régression sur les meilleurs sous-ensembles Régression pas à pas
Modèles considérés Tous les modèles possibles pour les prédicteurs. Séquence de modèles choisis en fonction de la signification statistique des termes.
Nombre de prédicteurs à prendre en compte Jusqu’à 31 prédicteurs gratuits, ainsi que tous les prédicteurs dont vous avez besoin dans chaque modèle. Aucune limite définie.
Types de prédicteurs Colonnes numériques dans la feuille de calcul. Des colonnes de texte ou numériques, ainsi que des termes d’interaction et d’autres termes d’ordre supérieur.
Types de variables de réponse Une colonne numérique. Différentes analyses dans Minitab peuvent analyser différents types de variables de réponse. Pour la régression pas à pas, vous pouvez choisir une analyse pour une variable de réponse continue, une variable de réponse binaire ou une variable de réponse de Poisson.
Résultats Les résultats incluent des statistiques récapitulatives du modèle qui explorent l’ajustement des données. Pour afficher les résultats de régression complets, tels que les tracés résiduels, explorez le modèle de votre choix dans une analyse telle que Ajuster le modèle de régression. L’analyse affiche les résultats de régression complets du modèle optimal en fonction d’un critère que vous sélectionnez. Vous pouvez également choisir d’afficher les statistiques récapitulatives du modèle pour chaque étape de la procédure.