R carré par rapport à l'étape de sélection du modèle

Lorsque vous utilisez la Sélection ascendante avec validation comme procédure pas à pas, Minitab fournit un diagramme de la statistique R2 pour l'ensemble de données d'apprentissage et de la statistique R2 de test ou de la statistique R2 pas à pas de K ensembles pour chaque étape de la procédure de sélection du modèle. L'affichage de la statistique R2 de test ou de la statistique R2 pas à pas de K ensembles dépend de l'utilisation d'un ensemble de données de test ou d'une validation croisée de K ensembles.

Interprétation

Utilisez le diagramme pour comparer les valeurs des différentes statistiques R2 à chaque étape. Généralement, le modèle fonctionne bien lorsque les statistiques R2 sont toutes deux élevées. Minitab affiche des statistiques de régression pour le modèle à partir de l'étape qui maximise la statistique R2 de test ou la statistique R2 pas à pas de K ensembles. Le diagramme montre si les modèles plus simples s'adaptent suffisamment bien pour être également de bons candidats.

Lorsque le modèle est sur-ajusté, la statistique R2 de test ou la statistique R2 pas à pas de K ensembles commence à diminuer à mesure que les termes entrent dans le modèle. Cette diminution se produit alors que la statistique R2 d'apprentissage ou la statistique R2 correspondante pour toutes les données continue d'augmenter. Un modèle est sur-ajusté si vous ajoutez des termes correspondant à des effets qui ne sont pas importants dans la population. Un modèle sur-ajusté peut ne pas être utile pour faire des prédictions sur la population. Si un modèle est sur-ajusté, vous pouvez considérer les modèles à partir d'étapes précédentes.

Le diagramme suivant montre le R2 de test à titre d'exemple. Au départ, les statistiques R2 sont proches de 70 %. Pour les premières étapes, les statistiques R2 ont tendance à augmenter au fur et à mesure que les termes entrent dans le modèle. A l'étape 6, la statistique R2 de test est d'environ 88 %. La statistique R2 de test est à son maximum à l'étape 14 et a une valeur proche de 90 %. Vous pouvez examiner si l'amélioration de l'ajustement justifie la complexité supplémentaire résultant de l'ajout de nouveaux termes au modèle.

Après l'étape 14, alors que le R2 continue d'augmenter, le R2 de test ne fonctionne pas. La diminution du R2 de test après l'étape 14 indique que le modèle est sur-ajusté.