Sélectionnez un arbre alternatif pour Classification CART®

Exécutez Module d'analyse prédictive > Classification CART®. Cliquez sur Sélectionner un arbre alternatifdans les résultats.

Aperçu

Par défaut, Minitab Statistical Software produit une sortie pour le plus petit arbre avec un coût d’erreur de classification inférieur à 1 erreur standard du plus petit coût d’erreur de classification. Minitab vous permet d’explorer d’autres arbres de la séquence qui a conduit à l’identification de l’arbre optimal. En règle générale, vous sélectionnez une arborescence alternative pour l’une des deux raisons suivantes :
  • L’arbre optimal fait partie d’un modèle où les coûts de classification erronée diminuent. Un ou plusieurs arbres qui ont quelques nœuds supplémentaires font partie du même modèle. En règle générale, vous souhaitez effectuer des prédictions à partir d’un arbre avec la plus grande précision de prédiction possible. Si l’arborescence est suffisamment simple, vous pouvez également l’utiliser pour comprendre comment chaque variable de prédiction affecte les valeurs de réponse.
  • L’arbre optimal fait partie d’un modèle où les coûts de classification erronée sont relativement stables. Un ou plusieurs arbres avec des statistiques récapitulatives de modèle similaires ont beaucoup moins de nœuds que l’arbre optimal. En règle générale, un arbre avec moins de nœuds terminaux donne une image plus claire de la façon dont chaque variable de prédiction affecte les valeurs de réponse. Un arbre plus petit permet également d’identifier plus facilement quelques groupes cibles pour des études ultérieures. Si la différence de précision de prédiction pour un arbre plus petit est négligeable, vous pouvez également utiliser l’arbre plus petit pour évaluer les relations entre la réponse et les variables de prédiction
Par exemple, dans le graphique suivant, l’arbre à 4 nœuds est l’arbre optimal. Les deux arbres suivants plus grands font partie d’un modèle où le coût de la classification erronée diminue.
L’arbre à 7 nœuds a un coût d’erreur de classification inférieur au coût de l’arbre à 4 nœuds. Étant donné que l’arborescence à 7 nœuds est d’une complexité similaire, vous pouvez utiliser l’arborescence plus grande avec sa précision de prédiction supplémentaire pour étudier les variables importantes et faire des prédictions.
En plus des valeurs de critère pour les arbres alternatifs, vous pouvez également comparer la complexité des arbres et l’utilité de différents nœuds. Prenons les exemples suivants de raisons pour lesquelles un analyste choisit un arbre particulier qui ne sacrifie pas les performances par rapport à d’autres arbres :
  • L’analyste choisit un arbre plus petit qui offre une vue plus claire des variables les plus importantes.
  • L’analyse choisit un arbre car les divisions concernent des variables plus faciles à mesurer que les variables d’un autre arbre.
  • L’analyste choisit une arborescence parce qu’un nœud terminal particulier l’intéresse.

Effectuer l’analyse

Cliquez dans Sélectionner un arbre alternatif la sortie. Une boîte de dialogue s’ouvre et affiche le tracé, un diagramme d’arborescence et un tableau récapitulant l’arborescence ou le nœud sélectionné.

Sélectionner une autre arborescence

La boîte de dialogue propose trois façons de sélectionner d’autres arborescences :
  • Cliquez sur un point du graphique.
  • Cliquez sur les boutons fléchés sous la table récapitulative du modèle pour sélectionner une arborescence plus grande ou plus petite que la sélection actuelle.
  • Cliquez sur un bouton pour sélectionner une arborescence de choix courante. Lorsque l’analyse n’utilise pas la validation, les boutons qui font référence à l’erreur type ne s’appliquent pas.
    Coût min
    Sélectionnez l’arbre avec le coût minimum d’erreur de classification
    1-SE coût min
    Sélectionnez le plus petit arbre dont le coût d’erreur de classification est inférieur à une erreur standard du coût minimum.
    2-SE coût min
    Sélectionnez le plus petit arbre dont le coût de classification est inférieur à 2 erreurs standard du coût minimum.
    Meilleur ROC
    Sélectionnez l’arbre dont la plus grande aire se trouve sous la courbe ROC.

Examiner l’arborescence et les nœuds individuels

L’arborescence fournit les interactions suivantes dans la barre d’outils :
  • Mettez en évidence les 5 nœuds les plus purs. Ces nœuds sont les nœuds optimaux.
  • Basculez entre le Arbre détaillé et le Vue de la division des nœuds. Cette Vue de la division des nœuds option est utile lorsque vous disposez d’un grand arbre et que vous souhaitez voir uniquement quelles variables divisent les nœuds.
  • Zoomez et dézoomez sur l’arbre.

Vous pouvez sélectionner des nœuds individuels dans l’arborescence pour afficher les détails du nœud dans la table. Les détails comprennent le décompte des classes individuelles et le décompte total. Les détails incluent également les règles pour arriver au nœud. Cliquez Copier les règles dans le presse-papiers pour pouvoir coller les règles à un autre endroit.

Pour sélectionner à nouveau l’arborescence entière, cliquez n’importe où dans le diagramme qui n’est pas un nœud individuel.

Créer un nouvel arbre

Cliquez pour Créer un arbre créer et stocker les résultats d’une autre arborescence que vous choisissez. Les sélections pour les résultats et le stockage sont les mêmes que pour l’arborescence d’origine. Les graphiques et les tables de l’arborescence alternative se trouvent dans un nouvel onglet de sortie. Les colonnes stockées se trouvent dans la feuille de calcul avec les données d’origine.