La régression pas à pas est un outil automatisé utilisé dans les étapes exploratoires de la construction d’un modèle pour identifier un sous-ensemble utile de prédicteurs. Le processus ajoute ou supprime systématiquement la variable la moins significative à chaque étape.
Par exemple, une société de conseil sur le marché du logement recueille des données sur les ventes de maisons de l’année précédente dans le but de prédire les prix de vente futurs. Avec plus de 100 variables prédictives, trouver un modèle peut prendre beaucoup de temps. La fonction de régression pas à pas de Minitab identifie automatiquement une séquence de modèles à prendre en compte. Des statistiques telles que AICc, BIC, test R2, R2, R2ajusté, R2prédit, S et Cp de Mallows vous aident à comparer les modèles. Minitab affiche les résultats complets du modèle qui convient le mieux à la procédure par étapes que vous utilisez.
Soyez prudent lorsque vous utilisez des procédures de sélection de variables telles que les meilleurs sous-ensembles et la régression par étapes. L’un des problèmes est que ces procédures ne peuvent pas tenir compte des connaissances spéciales que l’analyste pourrait avoir sur les données. La procédure ne peut pas tenir compte de l’importance pratique de l’un ou l’autre des prédicteurs.
Un problème lié à l’incapacité de la procédure à prendre en compte des connaissances spéciales est que lorsque deux prédicteurs sont fortement corrélés, la procédure ne peut sélectionner qu’un seul des deux prédicteurs, même si l’un ou l’autre peut être important. Par exemple, la procédure peut supprimer un prédicteur peu coûteux et facile à mesurer au profit d’un prédicteur corrélé difficile et coûteux à mesurer. L’analyste devrait utiliser sa connaissance des données pour porter des jugements sur des critères que la procédure ne peut pas prendre en compte.
Un autre problème avec les procédures pas à pas est que les différents modèles peuvent optimiser différents critères. Par exemple, le modèle avec la valeur R2 ajustée la plus élevée ne sera pas nécessairement le modèle avec la valeur R2 de test la plus élevée. L’analyste doit tenir compte des différents critères pour sélectionner un modèle final.
Pour vous assurer que votre modèle ne s’adapte pas à un seul ensemble de données spécifique, vous devez vérifier le modèle trouvé par la procédure de sélection sur un nouvel ensemble de données. Vous pouvez également prendre l’ensemble de données d’origine, le diviser au hasard en deux parties, utiliser une partie pour sélectionner un modèle, puis vérifier l’ajustement sur la deuxième partie. Cette procédure permet de s’assurer que le modèle que vous sélectionnez s’appliquera à d’autres ensembles de données. Consultez la section sur les procédures pas à pas avec validation automatique pour en savoir plus sur les commandes qui peuvent partitionner automatiquement vos données et calculer les statistiques de validation.
Toutes les analyses qui incluent des procédures automatiques par étapes dans Minitab incluent les procédures suivantes. Les méthodes suivantes vous permettent d’évaluer rapidement un grand nombre de modèles différents en termes de statistiques récapitulatives de modèle pour les données que vous utilisez pour générer le modèle.
La procédure par étapes que Minitab peut exécuter automatiquement avec un ensemble de données de test est appelée sélection en aval avec validation avec un ensemble de données de test. Dans cette procédure, le modèle initial est vide ou inclut des termes de modèle que vous sélectionnez spécifiquement. Ensuite, Minitab ajoute le terme potentiel suivant avec la valeur p la plus petite à chaque étape. Minitab calcule la valeur R2 du test pour le modèle à chaque étape en tant que valeur R2 pour le modèle sur l’ensemble de données de test. Les résultats du modèle présentés par Minitab concernent le modèle avec la valeur maximale de la valeur R2 du test.
Pour Ajuster le modèle de régression, vous pouvez choisir une deuxième technique de validation à effectuer avec la sélection par étapes, appelée sélection avant avec validation croisée k-fold. Dans le cadre de la validation croisée par pliage k, Minitab divise l’ensemble de données en k sous-ensembles. Ces sous-ensembles sont appelés plis. Le plus souvent, la validation utilise 10 plis, mais d’autres nombres sont possibles. Les plis ont un nombre d’observations aussi égal que possible. Minitab effectue une sélection avant k fois. Pour chaque sélection vers l’avant, les plis k–1 sont l’ensemble des données d’entraînement et le dernier pli est l’ensemble des données de test. Comme dans d’autres procédures de sélection directe, le modèle initial est vide ou inclut des termes de modèle que vous sélectionnez spécifiquement. Ensuite, Minitab ajoute le terme potentiel suivant avec la valeur p la plus petite à chaque étape. Pour chaque étape, Minitab calcule la valeur R2 par paliers en combinant les informations provenant des différentes procédures de sélection par étapes.
Un modèle hiérarchique est un modèle dans lequel, pour chaque terme du modèle, tous les termes d’ordre inférieur qu’il contient doivent également figurer dans le modèle. Par exemple, supposons qu’il existe un modèle avec quatre facteurs : A, B, C et D. Si le terme A * B * C est dans le modèle, alors les termes A, B, C, A*B, A*C et B*C doivent également être dans le modèle, bien que les termes avec D n’aient pas besoin d’être dans le modèle.
Les termes qui entrent ou sortent d’un modèle à une étape dépendent des spécifications de la hiérarchie. Par défaut, Minitab Statistical Software exige un modèle hiérarchique à chaque étape, une hiérarchie pour tous les termes et n’autorise qu’un seul terme à entrer dans le modèle à chaque étape. Ces paramètres limitent les termes que Minitab prend en compte à chaque étape. Par exemple, une interaction bidirectionnelle ne peut pas entrer dans le modèle à moins que les deux termes d’ordre inférieur de l’interaction ne soient déjà dans le modèle. Vous pouvez ajuster ces paramètres en cliquant lorsque Hiérarchie vous sélectionnez une méthode par étapes.
La régression des meilleurs sous-ensembles est un outil automatisé utilisé dans les étapes exploratoires de la construction d’un modèle pour identifier un sous-ensemble utile de prédicteurs. La procédure affiche les résultats récapitulatifs du modèle pour le nombre de modèles que vous demandez pour chaque taille : modèles avec un prédicteur, modèles avec deux prédicteurs, etc. Les modèles qui s’affichent ont les valeurs les plus élevées de R2 parmi les modèles possibles de cette taille. Pour utiliser la régression des meilleurs sous-ensembles dans Minitab, choisissez .
En tant que procédure de sélection automatique, la régression des meilleurs sous-ensembles partage de nombreux problèmes avec la régression pas à pas. La procédure ne peut pas utiliser les connaissances spécialisées d’un analyste, et il n’y a aucune garantie que différents critères identifient le même modèle. Les corrélations entre les prédicteurs peuvent rendre plus difficile l’identification des meilleurs modèles. La validation du modèle avec de nouvelles données augmente la confiance que vous pouvez avoir dans les performances du modèle.
Le meilleur sous-ensemble est une analyse de Minitab Statistical Software. La régression par étapes est une option dans plusieurs analyses. Ces deux techniques de sélection automatisée de modèles fournissent des informations sur l’ajustement de plusieurs modèles différents. À partir des différents modèles, vous pouvez identifier les modèles qui méritent une exploration plus approfondie.
Caractéristique | Régression sur les meilleurs sous-ensembles | Régression pas à pas |
---|---|---|
Modèles considérés | Tous les modèles possibles pour les prédicteurs. | Séquence de modèles choisis en fonction de la signification statistique des termes. |
Nombre de prédicteurs à prendre en compte | Jusqu’à 31 prédicteurs gratuits, ainsi que tous les prédicteurs dont vous avez besoin dans chaque modèle. | Aucune limite définie. |
Types de prédicteurs | Colonnes numériques dans la feuille de calcul. | Des colonnes de texte ou numériques, ainsi que des termes d’interaction et d’autres termes d’ordre supérieur. |
Types de variables de réponse | Une colonne numérique. | Différentes analyses dans Minitab peuvent analyser différents types de variables de réponse. Pour la régression pas à pas, vous pouvez choisir une analyse pour une variable de réponse continue, une variable de réponse binaire ou une variable de réponse de Poisson. |
Résultats | Les résultats incluent des statistiques récapitulatives du modèle qui explorent l’ajustement des données. Pour afficher les résultats de régression complets, tels que les tracés résiduels, explorez le modèle de votre choix dans une analyse telle que Ajuster le modèle de régression. | L’analyse affiche les résultats de régression complets du modèle optimal en fonction d’un critère que vous sélectionnez. Vous pouvez également choisir d’afficher les statistiques récapitulatives du modèle pour chaque étape de la procédure. |