Utilisation de la régression sur les meilleurs sous-ensembles et de la régression pas à pas

Comparaison de la régression sur les meilleurs sous-ensembles et de la régression pas à pas

La régression sur les meilleurs sous-ensembles donne des informations sur l'ajustement de plusieurs modèles différents, ce qui vous permet de sélectionner un modèle en fonction de quatre statistiques distinctes. La régression pas à pas produit un modèle unique basé sur une statistique unique. Du fait de l'utilisation de différents critères de sélection dans chaque modèle, il se peut que la régression sur les meilleurs sous-ensembles et la régression pas à pas mènent à des modèles différents. Voici quelques règles générales pour choisir la méthode la plus adaptée :
  • Pour les fichiers de données comportant un petit nombre de prédicteurs, la régression sur les meilleurs sous-ensembles est préférable à la méthode pas à pas car elle fournit des informations sur un nombre de modèles plus important.
  • La régression sur les meilleurs sous-ensembles vous permet uniquement d'inclure 31 prédicteurs libres ; par conséquent, pour les fichiers de données comportant un grand nombre de prédicteurs, la régression pas à pas est plus adaptée. Lorsque vous utilisez la régression pas à pas pour un ensemble de données comportant un grand nombre de prédicteurs, choisissez des valeurs élevées pour Alpha pour inclure et Alpha pour exclure (de 0,25 à 0,50). Ceci vous permet d'en apprendre plus sur les effets de chaque prédicteur inclus sur la réponse et sur les prédicteurs déjà présents dans le modèle.

Vérifier le modèle

Il convient de se montrer prudent dans l'utilisation de procédures de sélection des variables comme la régression sur les meilleurs sous-ensembles et la régression pas à pas. Ces procédures sont automatiques et ne tiennent donc pas compte de l'importance pratique des prédicteurs. De plus, lorsque vous ajustez un modèle à vos données, l'adéquation de l'ajustement provient de deux sources fondamentales :
  • La structure sous-jacente des données (structure qui s'appliquera à d'autres ensembles de données collectées de la même manière)
  • Les particularités de l'ensemble de données spécifique que vous analysez

Pour vous assurer que le modèle obtenu à l'aide de la procédure de sélection n'est pas uniquement ajusté à un ensemble de données spécifique, essayez-le sur un nouvel ensemble de données. Vous pouvez également prendre votre ensemble de données initial, le diviser aléatoirement en deux parties, sélectionner un modèle pour une partie à l'aide de la méthode des meilleurs sous-ensembles, puis vérifier l'ajustement de ce modèle avec la deuxième partie. Vous pourrez ainsi vous assurer que le modèle sélectionné s'appliquera de la même façon aux autres ensembles de données collectées.

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique