Sélection de l'arbre optimal dans Classification CART®

En fonction de votre sélection, l’arbre optimal est l’arbre ayant le coût minimum de mauvais classement ou le plus petit arbre dont le coût de mauvais classement se situe à moins d’un nombre donné d’erreurs types du coût minimum de mauvais classement. La détermination de l’arbre optimal dépend de la méthode de validation.

Pour plus de détails sur les méthodes de validation de modèle et les paramètres de complexité, voir Breiman, Friedman, Olshen et Stone (1984)1.

Méthodes de validation de modèle

Les statistiques récapitulatives du modèle, comme la zone située sous la courbe ROC, ont tendance à être optimistes lorsque vous les calculez avec les mêmes données que celles que vous utilisez pour ajuster un modèle. Les méthodes de validation de modèle omettent une partie des données lors du procédé d'ajustement du modèle, puis calculent les statistiques qui évaluent les performances du modèle sur les données omises. Les techniques de validation de modèle fournissent une meilleure estimation de la performance des modèles sur de nouvelles données. Le coût de mauvais classement des données omises est le critère de sélection de l’arbre optimal. Minitab propose deux méthodes de validation pour les techniques d'analyse prédictive : la validation croisée sur K ensembles et la validation avec un ensemble de données de test distinct.

Arbre optimal avec la validation croisée sur K ensembles

La validation croisée sur K ensembles est la méthode par défaut dans Minitab lorsque les données comprennent un maximum de 5 000 cas. Avec cette méthode, Minitab répartit les données en K sous-échantillons. Ces sous-échantillons sont appelés partitions. La validation croisée sur K ensembles fonctionne bien avec les ensembles de données qui sont relativement petits par rapport aux ensembles de données qui fonctionnent bien avec un ensemble de données de test. Étant donné que le processus se répète K fois, la validation croisée est généralement plus lente que la validation avec un ensemble de données de test.

Procédure de validation croisée sur K ensembles

Pour compléter la validation croisée sur K ensembles, Minitab produit 1 + K séquences de sous-arbres. Une séquence de sous-arbres, la séquence principale, utilise l'ensemble complet de données d'apprentissage. Les K autres séquences sont pour les K ensembles. Pour chaque partition, la séquence des sous-arbres utilise (K - 1)/K cas de l'ensemble de données d'apprentissage.

Chaque séquence se compose d'une séquence finie de sous-arbres emboîtés. Chaque partition comprend une séquence finie de paramètres de complexité αd ≤ α ≤ αd + 1 qui correspondent au plus grand arbre et aux sous-arbres de la séquence. La séquence de l'ensemble de données complet a des paramètres de complexité βd ≤ β ≤ βd + 1d = 0, 1, ... D, où β0 est le paramètre du plus grand arbre de la séquence.

Pour tout sous-arbre de la séquence principale, supposons que les paramètres de complexité correspondants sont βd et βd + 1. Soit . Ensuite, Minitab utilise cet alpha pour trouver les K sous-arbres correspondants à partir des K ensembles. Pour chaque partition, calculez le coût de mauvais classement du sous-arbre à l'aide de la formule de Méthodes et formules pour le récapitulatif du modèle dans Classification CART®. Le coût moyen de mauvais classement sur les K partitions est le coût de mauvais classement estimé pour le sous-arbre de la séquence principale. Répétez le calcul du coût de mauvais classement estimé pour chaque sous-arbre de la séquence principale. La procédure indique le sous-arbre qui présente le plus faible coût moyen de mauvais classement. L’arbre qui présente le plus faible coût moyen de mauvais classement ou le plus petit arbre dont le coût de mauvais classement se situe à moins d’un nombre donné d’erreurs types du coût de mauvais classement devient l’arbre optimal dans les résultats.

Arbre optimal avec un ensemble de données de test distinct

Lors de la validation avec un ensemble de données de test, une partie des données est mise de côté pour validation. Cette partie des données est l'ensemble de données d'apprentissage. Tout d'abord, Minitab ajuste tous les arbres avec l'ensemble de données d'apprentissage. Ensuite, Minitab calcule soit l'erreur quadratique moyenne, soit l'écart absolu pour l'ensemble de données de test pour chaque arbre. L'arbre qui présente la valeur optimale du critère pour l'ensemble de données de test est l'arbre optimal.

Arbre optimal sans validation

Sans aucune validation, Minitab utilise l'ensemble de données pour développer la séquence de sous-arbres. Le sous-arbre avec le plus de nœuds terminaux a le coût minimum de mauvais classement et est l’arbre optimal.

1 Breiman, Friedman, Olshen et Stone. (1984). Classification and Regression Trees. Boca Raton, Florida : Chapman & Hall/CRC.