Sélection du nombre optimal de fonctions de base pour Régression MARS®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

L’analyse construit autant de fonctions de base que vous spécifiez, avec une petite modification du modèle à partir des informations de chaque fonction. Si l’analyse comprend une méthode de validation, elle calcule la valeur du critère de sélection du modèle pour les données d’apprentissage et les données de test pour chaque nombre de fonctions de base. La valeur optimale des données de test détermine le nombre de fonctions dans le modèle optimal.

Méthodes de validation de modèle

Les critères d'optimisation, comme le R2 maximal, ont tendance à être optimistes lorsque vous les calculez avec les mêmes données que celles que vous utilisez pour ajuster un modèle. Les méthodes de validation de modèle omettent une partie des données lors du procédé d'ajustement du modèle, puis calculent les statistiques qui évaluent les performances du modèle sur les données omises. Les techniques de validation de modèle fournissent une meilleure estimation de la performance des modèles sur de nouvelles données. Selon votre sélection de la fonction de perte pour l’analyse, le critère est le R2 maximal ou le moindre écart moyen absolu (MAD). Minitab propose deux méthodes de validation : la validation croisée sur K ensembles et la validation avec un ensemble de données de test distinct.

Le modèle optimal avec validation croisée K-ensembles

La validation croisée sur K ensembles est la méthode par défaut dans Minitab lorsque les données comprennent un maximum de 2000 cas. Étant donné que le processus se répète K fois, la validation croisée est généralement plus lente que la validation avec des données de test.

Procédure de validation croisée sur K ensembles

Pour effectuer la validation croisée K-ensembles, Minitab Statistical Software procède comme suit.
  1. Minitab divise les données en K sous-échantillons aléatoires de taille aussi égale que possible. Ces sous-échantillons sont appelés partitions.
  2. Pour le pli k, k = 1, ..., K,ajoutez des fonctions de base en utilisant les plis de données K–1 restants. Calculez la valeur du critère de sélection du modèle pour le modèle avec les données dans le kième pli.
  3. Répétez l’étape 2 pour toutes les partitions K.
  4. Moyenne des valeurs du critère de sélection du modèle sur K plis pour chaque nombre de fonctions. Le nombre de fonctions avec la meilleure valeur moyenne fait le modèle optimal.

Le modèle optimal avec un jeu de test séparé

Lors de la validation avec un ensemble de test, une partie des données est mise de côté pour validation. Les données restantes sont l’ensemble d'apprentissage. Tout d’abord, Minitab ajoute des fonctions de base avec le kit de formation. Minitab calcule ensuite les valeurs du critère de sélection du modèle pour chaque nombre de fonctions à l’aide du jeu de tests. Le nombre de fonctions avec la meilleure valeur fait le modèle optimal.

Le modèle optimal sans validation

Sans aucune validation, Minitab utilise l'ensemble de données complet pour ajuster le modèle. Le modèle final contient généralement le plus grand nombre de fonctions de base.