Sélection du nombre optimal d'arbres pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Classification TreeNet®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Sélectionnez la méthode ou la formule de votre choix.

L'analyse crée le nombre d'arbres que vous spécifiez, avec une petite modification apportée au modèle à partir des informations de chaque arbre. Si l'analyse inclut une méthode de validation, elle calcule la valeur du critère de sélection du modèle pour les données d'apprentissage et les données de test pour chaque nombre d'arbres. La valeur optimale issue de l'ensemble de test détermine le nombre d'arbres dans le modèle optimal.

Méthodes de validation de modèle

Les critères d'optimisation, comme le log de vraisemblance maximal, ont tendance à être optimistes lorsque vous les calculez avec les mêmes données que celles que vous utilisez pour ajuster un modèle. Les méthodes de validation de modèle omettent une partie des données lors du procédé d'ajustement du modèle, puis calculent les statistiques qui évaluent les performances du modèle sur les données omises. Les techniques de validation de modèle fournissent une meilleure estimation de la performance des modèles sur de nouvelles données. Selon votre sélection pour l'analyse, le critère est le log de vraisemblance maximal, l'aire maximale sous la courbe ROC ou le taux minimal de mauvais classement. Minitab propose deux méthodes de validation : la validation croisée sur K ensembles et la validation avec un ensemble de données de test distinct.

Arbre optimal avec la validation croisée sur K ensembles

La validation croisée sur K ensembles est la méthode par défaut dans Minitab lorsque les données comprennent un maximum de 2000 cas. Étant donné que le processus se répète K fois, la validation croisée est généralement plus lente que la validation avec un ensemble de test.

Procédure de validation croisée sur K ensembles

Pour compléter la validation croisée sur K ensembles, Minitab Statistical Software procède comme suit :
  1. Minitab divise les données en K sous-échantillons aléatoires de taille aussi égale que possible. Ces sous-échantillons sont appelés partitions.
  2. Pour la partition k, k = 1, ..., K, développer la séquence des arbres en utilisant les K–1 partitions restantes des données. Calculez la valeur du critère de sélection du modèle pour chaque arbre avec les données dans la ke partition.
  3. Répétez l’étape 2 pour toutes les partitions K.
  4. Calculez la moyenne des valeurs du critère de sélection du modèle sur les K partitions pour chaque nombre d'arbres. Le nombre d'arbres de meilleure valeur moyenne est le modèle optimal.

Arbre optimal avec un ensemble de test distinct

Lors de la validation avec un ensemble de test, une partie des données est mise de côté pour validation. Les données restantes sont l’ensemble d'apprentissage. Tout d’abord, Minitab développe la séquence des arbres avec l’ensemble d'apprentissage. Ensuite, Minitab calcule les valeurs du critère de sélection du modèle pour chaque nombre d’arbres avec l’ensemble de test. Le nombre d'arbres ayant la meilleure valeur est le modèle optimal.

Arbre optimal sans validation

Sans aucune validation, Minitab utilise l'ensemble de données complet pour ajuster le modèle. Le modèle final contient le plus grand nombre d’arbres.