Sélectionner les options d'analyse pour Classification CART®

Stat > Analyse prédictive > Classification CART® > Options

Sélectionnez les options d'analyse.

Méthode de partition des nœuds
Choisissez la méthode de partition pour générer votre arbre de décision. Vous pouvez comparer les résultats de plusieurs méthodes de division pour déterminer le meilleur choix pour votre application.
  • Gini : la méthode Gini est la méthode par défaut. La méthode Gini est compatible avec de nombreuses applications. La méthode Gini génère habituellement des arbres qui comprennent de petits nœuds avec une forte concentration de la réponse d’intérêt.
  • Entropie : la méthode entropie est proportionnelle au maximum de certaines fonctions de vraisemblance pour le nœud.
  • Twoing : la méthode Twoing n’est disponible qu’avec une réponse multinomiale. La méthode Twoing génère habituellement des divisions plus équilibrées que les méthodes Gini ou entropie. Pour une réponse binaire, la méthode Twoing est identique à la méthode Gini.
  • Probabilité de classe : l’arbre de probabilité tend à être plus grand que l’arbre de Gini. Utilisez la méthode de probabilité lorsque vous souhaitez étudier les performances d’un petit nombre de nœuds supérieurs.
Critère de sélection d'un arbre optimal
Choisissez parmi les critères suivants pour sélectionner l’arbre dans les résultats. Vous pouvez comparer les résultats de différents arbres pour déterminer le meilleur choix pour votre application.
  • Coût minimum de mauvais classement : sélectionnez cette option pour afficher les résultats pour l’arbre qui réduit le coût de mauvais classement.
  • Dans K erreurs types du coût minimal de mauvais classement ; K = : sélectionnez cette option pour afficher les résultats pour le plus petit arbre dont le coût de mauvais classement se situe à moins de K erreurs types du coût de mauvais classement minimal. Par défaut, K = 1, de sorte que les résultats correspondent au plus petit arbre dont le coût de mauvais classement se situe à moins d’une erreur type de l’arbre présentant le coût de mauvais classement minimal.
Nombre de substituts pour un prédicteur avec des valeurs manquantes
Saisissez le nombre de substitutions que Minitab recherche lorsqu'un prédicteur a des valeurs manquantes. Lorsque de nombreux prédicteurs ont des schémas de valeur manquantes similaires, vous devez augmenter le nombre de substitutions.
Ce nombre représente le nombre maximal de substitutions que Minitab recherche ; cependant, ce nombre de substitutions peut ne pas être réellement trouvé.
La valeur par défaut est de 10.
Nombre minimal de cas pour diviser un nœud interne
Saisissez le nombre minimal de cas qu’un nœud peut avoir et encore être divisé en davantage de nœuds. Elle est par défaut de 10. Avec des échantillons plus grands, il est préférable d'augmenter ce minimum. Par exemple, si un nœud interne contient 10 cas ou plus, Minitab essaie d'effectuer une partition. Si le nœud interne contient 9 cas ou moins, Minitab n'essaie pas d'effectuer de partition.
La limite interne de nœuds doit être au moins deux fois la limite de nœuds terminaux, mais les rapports plus élevés sont meilleurs. Les limites internes de nœuds d'au moins 3 fois les limites de nœuds terminaux permettent d'utiliser un nombre raisonnable de séparateurs.
Nombre minimal de cas autorisés pour un nœud terminal
Saisissez le nombre minimal de cas qui peuvent se trouver dans un nœud terminal. La valeur par défaut est 3. Avec des échantillons plus grands, il est préférable d'augmenter ce minimum. Par exemple, si une partition crée un nœud avec moins de 3 cas, Minitab n'effectue pas de partition.
Profondeur maximale de l'arbre
Saisissez une valeur pour représenter la profondeur maximale d'un arbre. Le nœud racine correspond à une profondeur de 1. Si vous voulez être sûr d’obtenir le meilleur arbre, vous devez faire en sorte d’avoir un arbre plus profond, même si cela peut ralentir le traitement.
Pondérations
Saisissez une colonne qui contient les pondérations de cas. La colonne doit comporter le même nombre de lignes que la colonne de réponse. Les valeurs doivent être ≥ 0. Minitab omet les lignes qui contiennent des valeurs manquantes ou des zéros provenant de l'analyse.