Utilisation de la régression sur les meilleurs sous-ensembles et de la régression pas à pas

Qu'est‑ce que la régression pas à pas ?

La régression pas à pas est un outil automatisé qui permet, dans les phases exploratoires de l'élaboration d'un modèle, d'identifier un sous-ensemble utile de prédicteurs. A chaque étape, le procédé ajoute la variable la plus significative ou supprime la variable la moins significative.

Par exemple, une agence de conseil en immobilier collecte des données sur les ventes réalisées au cours de l'année précédente en vue de prévoir les prix de vente futurs. Avec plus de 100 variables de prévision, la recherche d'un modèle peut prendre beaucoup de temps. La fonctionnalité de régression pas à pas de Minitab détermine automatiquement une suite de modèles susceptibles de convenir. Les statistiques AICc, BIC, R2, R2 ajusté, R2 prévu, S et le Cp de Mallows vous permettent ensuite de comparer ces modèles. Minitab affiche les résultats complets du modèle le mieux adapté selon la procédure pas à pas que vous utilisez.

Les analyses suivantes dans Minitab peuvent automatiquement effectuer une sélection progressive afin que vous puissiez évaluer les statistiques sommaires du modèle pour de nombreux modèles potentiels dans un ensemble de sortie.
  • Stat > Régression > Régression > Ajuster le modèle de régression
  • Stat > Régression > Régression logistique binaire > Ajuster le modèle logistique binaire
  • Stat > Régression > Régression de Poisson > Ajuster le modèle de Poisson
  • Stat > ANOVA > Modèle linéaire général > Ajuster le modèle linéaire général
  • Stat > DOE (plan d'expériences) > Criblage > Analyser un plan de criblage
  • Stat > DOE (plan d'expériences) > Criblage > Analyser la réponse binaire
  • Stat > DOE (plan d'expériences) > Plan factoriel > Analyser un plan factoriel
  • Stat > DOE (plan d'expériences) > Plan factoriel > Analyser la réponse binaire
  • Stat > DOE (plan d'expériences) > Surface de réponse > Analyser un plan de surface de réponse
  • Stat > DOE (plan d'expériences) > Surface de réponse > Analyser la réponse binaire

Problèmes posés par la régression pas à pas

Il convient de se montrer prudent dans l'utilisation de procédures de sélection des variables comme la régression sur les meilleurs sous-ensembles et la régression pas à pas. Les procédures automatiques ne peuvent pas tenir compte des connaissances particulières que l'analyste peut avoir sur les données. La procédure ne peut pas tenir compte de l’importance pratique de l’un ou l’autre des prédicteurs.

Un problème connexe à l’incapacité de la procédure à considérer les connaissances spéciales est que lorsque deux prédicteurs sont fortement corrélés, la procédure ne peut sélectionner qu’un seul des deux prédicteurs, même si l’un ou l’autre peut être important. Par exemple, la procédure peut supprimer un prédicteur qui est bon marché et facile à mesurer en faveur d’un prédicteur corrélé qui est difficile et coûteux à mesurer. L’analyste devrait utiliser sa connaissance des données pour porter des jugements sur des critères que la procédure ne peut pas prendre en considération.

Un autre problème avec les procédures stepwise est que les différents modèles peuvent optimiser différents critères. Par exemple, le modèle ayant la valeur R2 ajustée la plus élevée ne sera pas nécessairement le modèle ayant la valeur R2 de test la plus élevée. L’analyste doit tenir compte des différents critères pour choisir un modèle final.

De plus, lorsque vous ajustez un modèle à vos données, l'adéquation de l'ajustement provient de deux sources fondamentales :
  • La structure sous-jacente des données (structure qui s'appliquera à d'autres ensembles de données collectées de la même manière)
  • Les particularités de l’ensemble de données que vous analysez.

Pour vous assurer que le modèle obtenu à l'aide de la procédure de sélection n'est pas uniquement ajusté à un ensemble de données spécifique, essayez-le sur un nouvel ensemble de données. Vous pouvez également prendre votre ensemble de données initial, le diviser aléatoirement en deux, sélectionner un modèle pour une partie à l'aide de la méthode des meilleurs sous-ensembles, puis vérifier l'ajustement de ce modèle avec la deuxième partie. Vous pourrez ainsi vous assurer que le modèle sélectionné pourra s'appliquer à d'autres ensembles de données. Rendez-vous sur la section sur les procédures stepwise avec validation automatique pour en savoir plus sur les commandes qui peuvent diviser automatiquement vos données et calculer les statistiques de validation.

Procédures Stepwise

Toutes les analyses qui incluent des procédures progressives automatiques dans Minitab comprennent les procédures suivantes. Les méthodes suivantes vous permettent d’évaluer rapidement un grand nombre de modèles différents en termes de leurs statistiques sommaires de modèle pour les données que vous utilisez pour construire le modèle.

  • La régression progressive standard ajoute ou supprime un prédicteur pour chaque étape. Minitab interrompt l'opération lorsque toutes les variables qui ne figurent pas dans le modèle possèdent une valeur de p supérieure à la valeur Alpha pour inclure spécifiée et que toutes les variables du modèle possèdent une valeur de p inférieure ou égale à la valeur Alpha pour exclure spécifiée.
  • La procédure de sélection ascendante par critères d'information ajoute au modèle le terme ayant la plus faible valeur de p à chaque étape. Des termes supplémentaires peuvent figurer dans le modèle dans une étape si les paramètres de l'analyse permettent de prendre en considération des termes non hiérarchiques, mais exigent que chaque modèle soit hiérarchique. Minitab calcule les critères d'informations à chaque étape. Dans la plupart des cas, la procédure se poursuit jusqu’à ce que l’une des conditions suivantes se produise :
    • La procédure ne trouve pas une nouvelle valeur minimale du critère pour huit étapes consécutives.
    • La procédure correspond au modèle complet.
    • La procédure correspond à un modèle qui laisse un degré de liberté pour l'erreur.
    Si vous spécifiez des paramètres de la procédure qui nécessitent un modèle hiérarchique à chaque étape et autorisez seulement la saisie d'un seul terme à la fois, alors la procédure continue jusqu'à ce qu'elle corresponde au modèle complet ou à un modèle qui laisse un degré de liberté pour l'erreur. Minitab affiche les résultats de l'analyse pour le modèle présentant la plus petite valeur pour le critère d'information sélectionné (AICc ou BIC).
  • La sélection vers l’avant commence par un modèle vide ou un modèle avec des termes que vous spécifiez. Ensuite, Minitab ajoute le terme le plus significatif à chaque étape. Minitab interrompt l'opération lorsque toutes les variables qui ne figurent pas dans le modèle possèdent une valeur de p supérieure à la valeur Alpha pour inclure spécifiée.
  • L'élimination descendante démarre avec tous les prédicteurs dans le modèle et Minitab supprime la variable la moins significative à chaque étape. Minitab interrompt l'opération lorsque toutes les variables du modèle possèdent une valeur de p inférieure ou égale à la valeur Alpha pour exclure spécifiée.

Procédures de régression Stepwise avec validation automatique

Pour les commandes suivantes, l’analyse dans Minitab peut inclure une technique de validation automatique ainsi qu’une procédure stepwise. La validation automatique permet d’économiser du temps pour un analyste qui ferait la validation du modèle pour eux-mêmes après une procédure progressive. Les commandes suivantes peuvent diviser vos données en un ensemble de données de formation et un ensemble de données de test au cours de la procédure stepwise :

La procédure stepwise que Minitab peut effectuer automatiquement avec un ensemble de données de test est appelée sélection vers l’avant avec validation avec un ensemble de données de test. Dans cette procédure, le modèle initial est vide ou inclut des termes de modèle que vous sélectionnez spécifiquement. Ensuite, Minitab ajoute le terme potentiel suivant avec la plus petite valeur p à chaque étape. Minitab calcule le test R2 pour le modèle à chaque étape comme la valeur R2 pour le modèle sur l’ensemble de données de test. Les résultats du modèle que Minitab présente sont pour le modèle avec la valeur maximale de la valeur de test R2.

Pour Ajuster le modèle de régression, vous pouvez choisir une deuxième technique de validation à effectuer avec une sélection stepwise appelée sélection vers l’avant avec k-fold cross-validation. Dans la validation croisée k-fold, Minitab divise le jeu de données en sous-ensembles k. Ces sous-échantillons sont appelés partitions. Le plus souvent, la validation utilise 10 plis, mais d’autres numéros sont possibles. Les plis ont le plus près d’un nombre égal d’observations que possible. Minitab effectue la sélection vers l’avant k fois. Pour chaque sélection vers l’avant, les plis k-1 sont l’ensemble de données de formation et le dernier pli est l’ensemble de données de test. Comme dans d’autres procédures de sélection prospective, le modèle initial est vide ou inclut des termes de modèle que vous sélectionnez spécifiquement. Ensuite, Minitab ajoute le terme potentiel suivant avec la plus petite valeur p à chaque étape. Pour chaque étape, Minitab calcule la valeur R2 stepwise k-fold en combinant les informations des différentes procédures de sélection stepwise.

Hiérarchie

Un modèle hiérarchique est un modèle dans lequel, pour tout terme que vous incluez, vous devez également inclure tous les termes d'ordre inférieur qu'il contient. Supposons par exemple qu'il existe un modèle à quatre facteurs : A, B, C et D. Si le terme A * B * C est dans le modèle, les termes A B C A * B A * C B * C doivent aussi y être. En revanche, aucun terme contenant D ne doit être dans le modèle.

Les termes qui entrent ou laissent un modèle à une étape dépendent des spécifications de la hiérarchie. Par défaut, Minitab Statistical Software nécessite un modèle hiérarchique à chaque étape, nécessite une hiérarchie pour toutes les conditions, et ne permet qu’un seul terme pour entrer dans le modèle à chaque étape. Ces paramètres limitent les termes que Minitab considère à chaque étape. Par exemple, une interaction bidirectionnelle ne peut pas entrer dans le modèle à moins que les deux termes d’ordre inférieur de l’interaction ne figurent déjà dans le modèle. Vous pouvez ajuster ces paramètres en cliquant sur Hiérarchie lorsque vous sélectionnez une méthode stepwise.

Qu'est‑ce que la régression sur les meilleurs sous‑ensembles ?

La régression pas à pas est un outil automatisé qui permet, dans les phases exploratoires de l'élaboration d'un modèle, d'identifier un sous-ensemble utile de prédicteurs. La procédure affiche les résultats sommaires du modèle pour le nombre de modèles que vous demandez pour chaque taille : modèles avec un prédicteur, modèles avec deux prédicteurs, et ainsi de suite. Les modèles qui affichent ont les valeurs les plus élevées de R2 parmi les modèles possibles de cette taille. Pour utiliser la meilleure régression de sous-ensembles dans Minitab, choisissez Stat > Régression > Régression > Meilleurs sous‑ensembles.

En tant que procédure de sélection automatique, la meilleure régression de sous-ensembles partage de nombreux problèmes avec la régression progressive. La procédure ne peut pas utiliser les connaissances spécialisées qu’un analyste a, et il n’y a aucune garantie que différents critères identifient le même modèle. Les corrélations entre les prédicteurs peuvent rendre l’identification des meilleurs modèles plus difficile. Validation du modèle avec de nouvelles données augmente la confiance que vous pouvez avoir dans les performances du modèle.

Comparaison de la régression sur les meilleurs sous-ensembles et de la régression pas à pas

Les meilleurs sous-ensembles est une analyse dans Minitab Statistical Software. La régression progressive est une option dans plusieurs analyses. Ces deux techniques automatisées de sélection de modèles fournissent des informations sur l’ajustement de plusieurs modèles différents. Des différents modèles, vous pouvez identifier tous les modèles qui méritent une exploration plus approfondie.

Les différences entre les techniques de Minitab peuvent vous aider à décider d’utiliser une technique sur l’autre ou d’utiliser les deux techniques. Voici quelques points généraux à considérer :
Caractéristique Régression sur les meilleurs sous-ensembles Régression pas à pas
Modèles considérés Tous les modèles possibles pour les prédicteurs. Une séquence de modèles choisis par la signification statistique des termes.
Nombre de prédicteurs à considérer Jusqu’à 31 prédicteurs libres, plus tous les prédicteurs dont vous avez besoin dans chaque modèle. Pas de limite fixe.
Etat des prédicteurs Masquer des colonnes de la feuille de travail Des colonnes textuelles ou numériques ainsi que des termes d’interaction et d’autres termes de commande plus élevée.
Types de variables de réponse Colonne numérique. Différentes analyses dans Minitab peuvent analyser différents types de variables de réponse. Pour une régression progressive, vous pouvez choisir une analyse pour une variable de réponse continue, une variable de réponse binaire ou une variable de réponse Poisson.
Résultats Les résultats comprennent des statistiques sommaires du modèle qui explorent l’ajustement des données. Pour voir les résultats complets de régression, tels que les parcelles résiduelles, explorez votre modèle choisi dans une analyse comme Ajuster le modèle de régression. L’analyse affiche les résultats complets de régression pour le modèle optimal selon un critère que vous sélectionnez. Vous pouvez également choisir d’examiner les statistiques sommaires du modèle pour chaque étape de la procédure.