Par défaut, Minitab Statistical Software produit une sortie pour le plus petit arbre avec un coût d’erreur de classification inférieur à 1 erreur standard du plus petit coût d’erreur de classification. Minitab vous permet d’explorer d’autres arbres de la séquence qui a conduit à l’identification de l’arbre optimal. En règle générale, vous sélectionnez une arborescence alternative pour l’une des deux raisons suivantes :
- L’arbre optimal fait partie d’un modèle où les coûts de classification erronée diminuent. Un ou plusieurs arbres qui ont quelques nœuds supplémentaires font partie du même modèle. En règle générale, vous souhaitez effectuer des prédictions à partir d’un arbre avec la plus grande précision de prédiction possible. Si l’arborescence est suffisamment simple, vous pouvez également l’utiliser pour comprendre comment chaque variable de prédiction affecte les valeurs de réponse.
- L’arbre optimal fait partie d’un modèle où les coûts de classification erronée sont relativement stables. Un ou plusieurs arbres avec des statistiques récapitulatives de modèle similaires ont beaucoup moins de nœuds que l’arbre optimal. En règle générale, un arbre avec moins de nœuds terminaux donne une image plus claire de la façon dont chaque variable de prédiction affecte les valeurs de réponse. Un arbre plus petit permet également d’identifier plus facilement quelques groupes cibles pour des études ultérieures. Si la différence de précision de prédiction pour un arbre plus petit est négligeable, vous pouvez également utiliser l’arbre plus petit pour évaluer les relations entre la réponse et les variables de prédiction
Par exemple, dans le graphique suivant, l’arbre à 4 nœuds est l’arbre optimal. Les deux arbres suivants plus grands font partie d’un modèle où le coût de la classification erronée diminue.
L’arbre à 7 nœuds a un coût d’erreur de classification inférieur au coût de l’arbre à 4 nœuds. Étant donné que l’arborescence à 7 nœuds est d’une complexité similaire, vous pouvez utiliser l’arborescence plus grande avec sa précision de prédiction supplémentaire pour étudier les variables importantes et faire des prédictions.
En plus des valeurs de critère pour les arbres alternatifs, vous pouvez également comparer la complexité des arbres et l’utilité de différents nœuds. Prenons les exemples suivants de raisons pour lesquelles un analyste choisit un arbre particulier qui ne sacrifie pas les performances par rapport à d’autres arbres :
- L’analyste choisit un arbre plus petit qui offre une vue plus claire des variables les plus importantes.
- L’analyse choisit un arbre car les divisions concernent des variables plus faciles à mesurer que les variables d’un autre arbre.
- L’analyste choisit une arborescence parce qu’un nœud terminal particulier l’intéresse.