Coût d’erreur de classification en fonction du nombre de nœuds terminaux Classification CART®

L’arbre le plus précis est celui dont le coût d’erreur de classification est le plus bas. Cet arbre est également connu sous le nom d’arbre optimal.

Parfois, des arbres plus simples avec des coûts d’erreur de classification légèrement plus élevés fonctionnent tout aussi bien. En règle générale, un arbre avec moins de nœuds terminaux donne une image plus claire de la façon dont chaque variable de prédiction affecte les valeurs de réponse. Un arbre plus petit permet également d’identifier plus facilement quelques groupes cibles pour des études ultérieures. Si la différence de précision de prédiction pour un arbre plus petit est négligeable, vous pouvez utiliser l’arbre plus petit pour évaluer les relations entre la réponse et les variables de prédiction.

Cliquez pour Sélectionner un arbre alternatif ouvrir une vue interactive du graphique qui inclut un tableau des statistiques récapitulatives du modèle. Utilisez le graphique pour étudier des arbres plus petits ayant des performances similaires.

Interprétation

Dans cet exemple, l’arbre avec 4 nœuds terminaux porte l’étiquette « Optimal » car le critère de création de l’arbre est le plus petit arbre avec un coût d’erreur de classification inférieur à 1 erreur standard du coût minimum d’erreur de classification. L’arbre à 4 nœuds terminaux a un coût d’erreur de classification d’environ 0,415. L’arbre à 6 nœuds terminaux a un coût d’erreur de classification légèrement inférieur d’environ 0,397. L’arbre à 7 nœuds terminaux a le coût minimum d’erreur de classification d’environ 0,391. L’arborescence initiale avec 4 nœuds terminaux conserve l’étiquette « Optimal » lorsque vous l’utilisez Sélectionner un arbre alternatif pour créer des résultats pour une autre arborescence.