Une probabilité a priori est la probabilité qu'une observation soit classée dans un groupe avant de collecter les données. Par exemple, si vous classez les acheteurs d'une voiture spécifique, vous savez peut-être déjà que 60 % des acheteurs sont des hommes et 40 % sont des femmes.
Utilisez les probabilités a priori pour augmenter l’exactitude de la classification pour certaines classes. CART prend différentes décisions d’équilibrage interne en fonction des probabilités a priori. Augmenter la probabilité d’une classe et diminuer la probabilité d’une autre classe permet d’équilibrer les taux de mauvais classement pour différentes classes. Par exemple, augmenter la probabilité d’événement et diminuer la probabilité de non-événement peut améliorer le taux de faux positifs, mais aggraver le taux de faux négatifs.
L’augmentation de la probabilité d’événement abaissera le seuil de nœud pour l’affectation de classe à l’événement. Ainsi, les nœuds avec des fractions inférieures de la classe d’événement sont classés comme l’événement. Les probabilités a priori ont le plus fort impact sur le développement de intégralité de l’arbre pendant son étape de croissance et fournissent des moyens puissants pour modifier le modèle final.
Utilisez la méthode de division pour trouver l’arbre qui correspond le mieux à vos données. Selon vos données, certaines méthodes de division peuvent être plus efficaces que d’autres. Comparez les résultats de plusieurs méthodes de division pour déterminer le meilleur choix pour votre application.
Minitab utilise la méthode de validation croisée ou un ensemble de test distinct pour valider le modèle. Avec la validation croisée, vous pouvez spécifier les lignes pour chaque ensemble, ou autoriser une sélection aléatoire. Avec un ensemble de test distinct, vous pouvez spécifier les lignes pour les ensembles d’apprentissage et de test ou autoriser une sélection aléatoire.
Par défaut, l’analyse n’a pas de pénalité de valeur manquante et cette ligne n’est pas présente. La pénalité de valeur manquante pénalise une division compétitive en fonction de la proportion de valeurs manquantes pour chaque nœud. Ainsi, une division compétitive avec de nombreuses valeurs manquantes dans un nœud est moins susceptible d'avoir un rôle de séparateur principal.
Par défaut, l’analyse n’a pas de pénalité de catégorie de niveau élevé et cette ligne n’est pas présente. La pénalité de catégorie de niveau élevé pénalise une division compétitive en fonction du nombre de niveaux de catégorie par rapport à la taille du nœud pour chaque nœud. Ainsi, une division compétitive avec de nombreux niveaux dans un nœud est moins susceptible d'avoir un rôle de séparateur principal.
Indique la colonne utilisée pour pondérer la réponse.
Nombre d’observations de réponse utilisées dans l’arbre.
Nombre d'observations de réponse manquantes. Cela inclut également les valeurs manquantes ou les zéros dans la colonne de pondération.