La régression pas à pas est un outil automatisé qui permet, dans les phases exploratoires de l'élaboration d'un modèle, d'identifier un sous-ensemble utile de prédicteurs. A chaque étape, le procédé ajoute la variable la plus significative ou supprime la variable la moins significative.
Par exemple, une agence de conseil en immobilier collecte des données sur les ventes réalisées au cours de l'année précédente en vue de prévoir les prix de vente futurs. Avec plus de 100 variables de prévision, la recherche d'un modèle peut prendre beaucoup de temps. La fonctionnalité de régression pas à pas de Minitab détermine automatiquement une suite de modèles susceptibles de convenir. Les statistiques AICc, BIC, R2, R2 ajusté, R2 prévu, S et le Cp de Mallows vous permettent ensuite de comparer ces modèles. Minitab affiche les résultats complets du modèle le mieux adapté selon la procédure pas à pas que vous utilisez.
Il convient de se montrer prudent dans l'utilisation de procédures de sélection des variables comme la régression sur les meilleurs sous-ensembles et la régression pas à pas. Les procédures automatiques ne peuvent pas tenir compte des connaissances particulières que l'analyste peut avoir sur les données. La procédure ne peut pas tenir compte de l’importance pratique de l’un ou l’autre des prédicteurs.
Un problème connexe à l’incapacité de la procédure à considérer les connaissances spéciales est que lorsque deux prédicteurs sont fortement corrélés, la procédure ne peut sélectionner qu’un seul des deux prédicteurs, même si l’un ou l’autre peut être important. Par exemple, la procédure peut supprimer un prédicteur qui est bon marché et facile à mesurer en faveur d’un prédicteur corrélé qui est difficile et coûteux à mesurer. L’analyste devrait utiliser sa connaissance des données pour porter des jugements sur des critères que la procédure ne peut pas prendre en considération.
Un autre problème avec les procédures stepwise est que les différents modèles peuvent optimiser différents critères. Par exemple, le modèle ayant la valeur R2 ajustée la plus élevée ne sera pas nécessairement le modèle ayant la valeur R2 de test la plus élevée. L’analyste doit tenir compte des différents critères pour choisir un modèle final.
Pour vous assurer que le modèle obtenu à l'aide de la procédure de sélection n'est pas uniquement ajusté à un ensemble de données spécifique, essayez-le sur un nouvel ensemble de données. Vous pouvez également prendre votre ensemble de données initial, le diviser aléatoirement en deux, sélectionner un modèle pour une partie à l'aide de la méthode des meilleurs sous-ensembles, puis vérifier l'ajustement de ce modèle avec la deuxième partie. Vous pourrez ainsi vous assurer que le modèle sélectionné pourra s'appliquer à d'autres ensembles de données. Rendez-vous sur la section sur les procédures stepwise avec validation automatique pour en savoir plus sur les commandes qui peuvent diviser automatiquement vos données et calculer les statistiques de validation.
Toutes les analyses qui incluent des procédures progressives automatiques dans Minitab comprennent les procédures suivantes. Les méthodes suivantes vous permettent d’évaluer rapidement un grand nombre de modèles différents en termes de leurs statistiques sommaires de modèle pour les données que vous utilisez pour construire le modèle.
La procédure stepwise que Minitab peut effectuer automatiquement avec un ensemble de données de test est appelée sélection vers l’avant avec validation avec un ensemble de données de test. Dans cette procédure, le modèle initial est vide ou inclut des termes de modèle que vous sélectionnez spécifiquement. Ensuite, Minitab ajoute le terme potentiel suivant avec la plus petite valeur p à chaque étape. Minitab calcule le test R2 pour le modèle à chaque étape comme la valeur R2 pour le modèle sur l’ensemble de données de test. Les résultats du modèle que Minitab présente sont pour le modèle avec la valeur maximale de la valeur de test R2.
Pour Ajuster le modèle de régression, vous pouvez choisir une deuxième technique de validation à effectuer avec une sélection stepwise appelée sélection vers l’avant avec k-fold cross-validation. Dans la validation croisée k-fold, Minitab divise le jeu de données en sous-ensembles k. Ces sous-échantillons sont appelés partitions. Le plus souvent, la validation utilise 10 plis, mais d’autres numéros sont possibles. Les plis ont le plus près d’un nombre égal d’observations que possible. Minitab effectue la sélection vers l’avant k fois. Pour chaque sélection vers l’avant, les plis k-1 sont l’ensemble de données de formation et le dernier pli est l’ensemble de données de test. Comme dans d’autres procédures de sélection prospective, le modèle initial est vide ou inclut des termes de modèle que vous sélectionnez spécifiquement. Ensuite, Minitab ajoute le terme potentiel suivant avec la plus petite valeur p à chaque étape. Pour chaque étape, Minitab calcule la valeur R2 stepwise k-fold en combinant les informations des différentes procédures de sélection stepwise.
Un modèle hiérarchique est un modèle dans lequel, pour tout terme que vous incluez, vous devez également inclure tous les termes d'ordre inférieur qu'il contient. Supposons par exemple qu'il existe un modèle à quatre facteurs : A, B, C et D. Si le terme A * B * C est dans le modèle, les termes A B C A * B A * C B * C doivent aussi y être. En revanche, aucun terme contenant D ne doit être dans le modèle.
Les termes qui entrent ou laissent un modèle à une étape dépendent des spécifications de la hiérarchie. Par défaut, Minitab Statistical Software nécessite un modèle hiérarchique à chaque étape, nécessite une hiérarchie pour toutes les conditions, et ne permet qu’un seul terme pour entrer dans le modèle à chaque étape. Ces paramètres limitent les termes que Minitab considère à chaque étape. Par exemple, une interaction bidirectionnelle ne peut pas entrer dans le modèle à moins que les deux termes d’ordre inférieur de l’interaction ne figurent déjà dans le modèle. Vous pouvez ajuster ces paramètres en cliquant sur Hiérarchie lorsque vous sélectionnez une méthode stepwise.
La régression pas à pas est un outil automatisé qui permet, dans les phases exploratoires de l'élaboration d'un modèle, d'identifier un sous-ensemble utile de prédicteurs. La procédure affiche les résultats sommaires du modèle pour le nombre de modèles que vous demandez pour chaque taille : modèles avec un prédicteur, modèles avec deux prédicteurs, et ainsi de suite. Les modèles qui affichent ont les valeurs les plus élevées de R2 parmi les modèles possibles de cette taille. Pour utiliser la meilleure régression de sous-ensembles dans Minitab, choisissez .
En tant que procédure de sélection automatique, la meilleure régression de sous-ensembles partage de nombreux problèmes avec la régression progressive. La procédure ne peut pas utiliser les connaissances spécialisées qu’un analyste a, et il n’y a aucune garantie que différents critères identifient le même modèle. Les corrélations entre les prédicteurs peuvent rendre l’identification des meilleurs modèles plus difficile. Validation du modèle avec de nouvelles données augmente la confiance que vous pouvez avoir dans les performances du modèle.
Les meilleurs sous-ensembles est une analyse dans Minitab Statistical Software. La régression progressive est une option dans plusieurs analyses. Ces deux techniques automatisées de sélection de modèles fournissent des informations sur l’ajustement de plusieurs modèles différents. Des différents modèles, vous pouvez identifier tous les modèles qui méritent une exploration plus approfondie.
Caractéristique | Régression sur les meilleurs sous-ensembles | Régression pas à pas |
---|---|---|
Modèles considérés | Tous les modèles possibles pour les prédicteurs. | Une séquence de modèles choisis par la signification statistique des termes. |
Nombre de prédicteurs à considérer | Jusqu’à 31 prédicteurs libres, plus tous les prédicteurs dont vous avez besoin dans chaque modèle. | Pas de limite fixe. |
Etat des prédicteurs | Masquer des colonnes de la feuille de travail | Des colonnes textuelles ou numériques ainsi que des termes d’interaction et d’autres termes de commande plus élevée. |
Types de variables de réponse | Colonne numérique. | Différentes analyses dans Minitab peuvent analyser différents types de variables de réponse. Pour une régression progressive, vous pouvez choisir une analyse pour une variable de réponse continue, une variable de réponse binaire ou une variable de réponse Poisson. |
Résultats | Les résultats comprennent des statistiques sommaires du modèle qui explorent l’ajustement des données. Pour voir les résultats complets de régression, tels que les parcelles résiduelles, explorez votre modèle choisi dans une analyse comme Ajuster le modèle de régression. | L’analyse affiche les résultats complets de régression pour le modèle optimal selon un critère que vous sélectionnez. Vous pouvez également choisir d’examiner les statistiques sommaires du modèle pour chaque étape de la procédure. |