Effectuez une régression pas à pas pour Ajuster le modèle de régression et Regressão Linear

Stat > Régression > Régression > Ajuster le modèle de régression > Pas à pas

Module d'analyse prédictive > Régression linéaire > Pas à pas

Méthode

Le modèle pas à pas supprime et ajoute des termes au modèle dans le but d'identifier un sous-ensemble utile des termes. Si vous choisissez une procédure pas à pas, les termes que vous spécifiez dans la boîte de dialogue Modèle sont des candidats pour le modèle final. Pour plus d'informations, accédez à Utilisation de la régression pas à pas et de la régression des meilleurs sous-ensembles.

Spécifiez la méthode utilisée par Minitab pour ajuster le modèle.
  • Aucune : ajustez le modèle avec tous les termes que vous spécifiez dans la boîte de dialogue Modèle.
  • Pas à pas : cette méthode commence par un modèle vide, ou inclut les termes que vous avez spécifiés dans le modèle initial ou dans chaque modèle. Ensuite, Minitab ajoute ou supprime un terme à chaque étape. Vous pouvez spécifier des termes à inclure dans le modèle initial ou à forcer dans chaque modèle. Minitab s'arrête lorsque toutes les variables qui ne figurent pas dans le modèle ont des valeurs de p supérieures à la valeur Alpha pour inclure spécifiée et que toutes les variables du modèle ont des valeurs de p inférieures ou égales à la valeur Alpha pour exclure spécifiée.
  • Sélection ascendante : cette méthode commence par un modèle vide, ou inclut les termes que vous avez spécifiés dans le modèle initial ou dans chaque modèle. Ensuite, Minitab ajoute le terme le plus significatif à chaque étape. Minitab s'arrête lorsque toutes les variables qui ne figurent pas dans le modèle ont des valeurs de p supérieures à la valeur Alpha pour inclure spécifiée.
  • Elimination descendante : cette méthode commence avec tous les termes potentiels dans le modèle et supprime le terme le moins significatif à chaque étape. Minitab s'arrête lorsque toutes les variables du modèle ont des valeurs de p inférieures ou égales à la valeur Alpha pour exclure spécifiée.
  • Critères d'informations ascendantes : la procédure de critères d'informations ascendantes ajoute le terme avec la valeur de p la plus faible au modèle à chaque étape. Des termes supplémentaires peuvent figurer dans le modèle dans une étape si les paramètres de l'analyse permettent de prendre en considération des termes non hiérarchiques, mais exigent que chaque modèle soit hiérarchique. Minitab calcule les critères d'informations à chaque étape. Dans la plupart des cas, la procédure se poursuit jusqu'à ce que l'une des conditions suivantes se produise :
    • La procédure ne trouve pas d'amélioration du critère pour 8 étapes consécutives.
    • La procédure correspond au modèle complet.
    • La procédure correspond à un modèle qui laisse un degré de liberté pour l'erreur.
    Si vous spécifiez des paramètres de la procédure qui nécessitent un modèle hiérarchique à chaque étape et autorisez seulement la saisie d'un seul terme à la fois, alors la procédure continue jusqu'à ce qu'elle corresponde au modèle complet ou à un modèle qui laisse un degré de liberté pour l'erreur. Minitab affiche les résultats de l'analyse pour le modèle avec la valeur minimale du critère d'information sélectionné, AICc ou BIC.
  • Sélection ascendante avec validation : la procédure de sélection ascendante avec validation dépend de la méthode de validation. Lorsque vous utilisez un ensemble de données de test, la procédure est semblable à la sélection ascendante. A la fin de chaque étape, Minitab calcule la statistique du R2 de test. A la fin de la procédure de sélection ascendante, le modèle ayant la valeur de R2 de test la plus élevée correspond au modèle final.

    Avec la validation croisée, la procédure répète la sélection ascendante sur chaque ensemble. La procédure évalue tous les ensembles à chaque étape et identifie l'étape avec la meilleure valeur de R2 pas à pas de K ensembles. La dernière partie de la procédure consiste à effectuer la sélection ascendante sur l'ensemble complet de données, en s'arrêtant à la meilleure étape de sélection des ensembles.

    Pour les deux types de validation, la procédure s'arrête dans les mêmes conditions que la procédure de critères d'informations ascendantes.

Remarque

Les termes inclus dans le modèle final peuvent dépendre des restrictions hiérarchiques pour les modèles. Pour plus d'informations, consultez la rubrique Hiérarchie ci-dessous.

Termes potentiels

Affiche l'ensemble des termes qui seront évalués par la procédure. Les indicateurs (E ou I) en regard des termes de la liste indiquent la façon dont un terme est traité par la procédure. L'option Méthode que vous sélectionnez détermine les paramètres initiaux dans cette liste. Vous pouvez modifier le traitement des termes par la procédure avec les deux boutons ci-dessous. Si vous n'utilisez pas ces boutons, la procédure peut ajouter ou supprimer le terme du modèle en fonction de sa valeur de p.
  • E = Inclure le terme dans chaque modèle : sélectionnez un terme et cliquez sur ce bouton pour imposer l'entrée du terme dans tous les modèles, quelle que soit sa valeur de p. Cliquez à nouveau sur le bouton pour supprimer cette condition.
  • I = Inclure le terme dans le modèle initial : sélectionnez un terme et cliquez sur ce bouton pour l'intégrer au modèle initial. La procédure peut supprimer ce terme si sa valeur de p est trop élevée. Cliquez à nouveau sur le bouton pour supprimer cette condition. Ce bouton est disponible uniquement si vous sélectionnez Pas à pas dans Méthode.

Alpha pour inclure et pour exclure

Alpha pour inclure
Entrez la valeur d'alpha que Minitab doit utiliser pour déterminer si un terme peut être intégré au modèle. Vous pouvez définir cette valeur lorsque vous sélectionnez Pas à pas ou Sélection ascendante dans Méthode.
Alpha pour exclure
Entrez la valeur d'alpha que Minitab doit utiliser pour déterminer si un terme doit être supprimé du modèle. Vous pouvez définir cette valeur lorsque vous sélectionnez Pas à pas ou Elimination descendante dans Méthode.

Critère

Indiquez le critère d'information à utiliser pour la sélection ascendante.

Les valeurs AICc et BIC évaluent toutes deux la probabilité du modèle, puis ajoutent une pénalité pour l'ajout de termes. Cette pénalité réduit la tendance du système à surajuster le modèle aux données échantillon. Cette réduction permet généralement de produire un modèle qui fonctionne mieux.

De manière générale, quand le nombre de paramètres est relativement faible par rapport à l'effectif d'échantillon, une plus grande pénalité est appliquée à la valeur BIC qu'à la valeur AICc pour l'ajout de chaque paramètre. Dans ce cas, le modèle qui fournit la plus faible valeur BIC tend à être plus petit que celui qui fournit la plus faible valeur AICc.

Dans certains cas courants, par exemple dans les plans de criblage, le nombre de paramètres est généralement élevé par rapport à l'effectif d'échantillon. Dans ce cas, le modèle qui fournit la plus faible valeur AICc tend à être plus petit que celui qui fournit la plus faible valeur BIC. Par exemple, pour un plan de criblage définitif à 13 essais, le modèle qui fournit la plus faible valeur AICc tend à être plus petit que celui qui fournit la plus faible valeur BIC parmi l'ensemble des modèles à 6 paramètres ou plus.

Pour plus d'informations sur les valeurs AICc et BIC, reportez-vous à Burnham et Anderson.1

Spécifier la validation pour Sélection ascendante avec validation

Remarque

Les paramètres de validation sont également dans la sous-boîte de dialogue Validation. Si vous modifiez les paramètres, Minitab met automatiquement à jour les paramètres aux deux emplacements.

Lorsque vous sélectionnez Sélection ascendante avec validation, choisissez la méthode de validation pour tester votre modèle. Habituellement, avec des échantillons plus petits, la méthode de validation croisée de K ensembles est appropriée. Avec des échantillons plus grands, vous pouvez diviser les données en un ensemble de données d'apprentissage et un ensemble de données de test.

Validation croisée sur K ensembles

Procédez comme suit pour utiliser la validation croisée de K ensembles.

  1. Dans la liste déroulante, sélectionnez Validation croisée sur K ensembles.
  2. Choisissez l'une des options suivantes pour spécifier si vous souhaitez attribuer des ensembles de manière aléatoire ou avec une colonne d'ID.
    • Affecter aléatoirement des lignes de chaque partition : sélectionnez cette option afin que Minitab sélectionne de manière aléatoire des lignes pour chaque ensemble. Vous pouvez spécifier le nombre d'ensembles. La valeur par défaut (10) fonctionne bien dans la plupart des cas. L'utilisation d'une valeur inférieure de K peut introduire plus de biais. Cependant, de plus grandes valeurs de K peuvent introduire plus de variabilité. Vous pouvez également définir une base pour le générateur de nombres aléatoires.
    • Affecter des lignes de chaque partition par colonne d'ID : sélectionnez cette option pour choisir les lignes à inclure dans chaque ensemble. Dans Colonne d'ID, saisissez la colonne qui identifie les ensembles. Chaque ligne ayant la même valeur dans la colonne d'ID se trouve dans le même ensemble.

Validation avec un ensemble de test

Procédez comme suit pour diviser les données en un ensemble de données d'apprentissage et un ensemble de données de test.

  1. Dans la liste déroulante, sélectionnez Validation avec un ensemble de test.
  2. Choisissez l'une des options suivantes pour spécifier si vous souhaitez sélectionner une fraction de lignes de manière aléatoire ou avec une colonne d'ID.
    • Sélectionner aléatoirement une fraction de lignes comme ensemble de test : sélectionnez cette option afin que Minitab sélectionne de manière aléatoire l'ensemble de données de test. Vous pouvez spécifier la quantité de données à utiliser dans l'ensemble de données de test. La valeur par défaut (0,3) fonctionne bien dans la plupart des cas. Vous souhaitez inclure suffisamment de données dans l'ensemble de données de test pour bien évaluer le modèle. Si vous n'êtes pas sûr de la forme du modèle, un ensemble de données de test plus grand permet une validation plus solide. Vous souhaitez également disposer de suffisamment de données dans l'ensemble de données d'apprentissage pour bien estimer le modèle. Généralement, les modèles avec plus de prédicteurs nécessitent plus de données d'apprentissage pour l'estimation.
    • Définir la division d'apprentissage/de test par colonne d'ID : sélectionnez cette option pour choisir vous-même les lignes à inclure dans l'ensemble de données de test. Dans Colonne d'ID, saisissez la colonne qui indique les lignes à utiliser pour l'échantillon de test. La colonne d'ID ne doit contenir que deux valeurs. Dans Niveau pour l'ensemble de test, sélectionnez le niveau à utiliser comme échantillon de test.

Hiérarchie

Vous pouvez déterminer comment Minitab applique la hiérarchie de modèle lors d'une procédure pas à pas. Le bouton Hiérarchie est désactivé si vous indiquez un modèle non hiérarchique dans la boîte de dialogue Modèle.

Dans un modèle hiérarchique, tous les termes d'ordre inférieur qui sont inclus dans les termes d'ordre supérieur apparaissent aussi dans le modèle. Par exemple, un modèle qui comprend le terme d'interaction A*B*C est hiérarchique s'il comprend les termes suivants : A, B, C, A*B, A*C et B*C.

Les modèles ne sont pas forcément hiérarchiques. En général, vous pouvez supprimer les termes d'ordre inférieur s'ils ne sont pas significatifs, sauf si vos connaissances dans un domaine particulier vous incitent à les inclure. Les modèles qui contiennent trop de termes peuvent être relativement imprécis et nuire à la prévision des valeurs des nouvelles observations.

Tenez compte des conseils suivants :
  • Ajustez d'abord un modèle hiérarchique. Vous pouvez supprimer les termes non significatifs ultérieurement.
  • Si vous normalisez les prédicteurs continus, ajustez un modèle hiérarchique pour produire une équation dans des unités non codées (ou naturelles).
  • Si votre modèle contient des variables de catégorie, les résultats sont plus simples à interpréter lorsque les termes de catégorie sont au moins hiérarchiques.
Modèle hiérarchique
Déterminez si la procédure pas à pas doit produire un modèle hiérarchique.
  • Exiger un modèle hiérarchique à chaque étape : Minitab peut uniquement ajouter ou supprimer des termes qui conservent la hiérarchie.
  • Ajouter des termes à la fin pour convertir le modèle en modèle hiérarchique : Minitab suit d'abord les règles standard de la procédure pas à pas. A l'étape finale, Minitab ajoute les termes qui produisent un modèle hiérarchique, même si leurs valeurs de p sont supérieures à la valeur Alpha pour inclure. Si vous sélectionnez cette option quand Méthode est défini sur Critères d'informations ascendantes, Minitab affiche une erreur. Pour obtenir un modèle hiérarchique qui produit la plus petite valeur possible pour le critère à chaque étape, sélectionnez Exiger un modèle hiérarchique à chaque étape.
  • Ne pas exiger de modèle hiérarchique : le modèle final peut ne pas être hiérarchique. Minitab ajoute et supprime des termes uniquement en fonction des règles de la procédure pas à pas.
Exiger une hiérarchie pour les termes suivants
Si votre modèle doit être hiérarchique, choisissez les types de termes qui doivent être hiérarchiques.
  • Tous les termes : les termes qui incluent des variables continues et/ou de catégorie doivent être hiérarchiques.
  • Termes avec prédicteurs de catégorie : les termes qui incluent uniquement des variables de catégorie doivent être hiérarchiques.
Nombre de termes pouvant être saisis à chaque étape
Si vous avez besoin d'une hiérarchie à chaque étape, choisissez le nombre de termes que Minitab peut ajouter à chaque étape afin de maintenir la hiérarchie.
  • Un seul terme peut être saisi à chaque étape : un terme d'ordre supérieur peut être intégré au modèle uniquement si la hiérarchie est maintenue lors de l'ajout de ce terme seul. Tous les termes d'ordre inférieur qui sont inclus dans les termes d'ordre supérieur doivent déjà être inclus dans le modèle.
  • Termes supplémentaires pouvant être saisis pour maintenir la hiérarchie : un terme d'ordre supérieur peut intégrer le modèle même s'il produit un modèle non hiérarchique. Toutefois, les termes qui sont nécessaires à la production d'un modèle hiérarchique sont également ajoutés, même si leurs valeurs de p sont supérieures à la valeur Alpha pour inclure.

Afficher le tableau des détails de sélection du modèle

Définissez les informations à afficher concernant la procédure pas à pas.
  • Détails sur la méthode : affichez le type de procédure pas à pas et les valeurs d'alpha à utiliser pour intégrer un prédicteur au modèle et/ou l'en supprimer.
  • Inclure les détails pour chaque étape : affichez les coefficients, les valeurs de p et les statistiques récapitulatives du modèle pour chaque étape de la procédure.

Afficher le graphique du R carré par rapport à l'étape

La sélection de l'option Sélection ascendante avec validation affiche un diagramme des valeurs du R2 d'apprentissage et de validation pour chaque étape de la sélection ascendante. Généralement, le diagramme vous permet de déterminer si des modèles plus simples ont des valeurs de validation similaires.

1 Burnham, K.P. et Anderson, D.R. (2004), Multimodel inference: Understanding AIC and BIC in model selection, Sociological Methods & Research, 33(2), 261-304. doi : 10.1177/0049124104268644