Probabilités a priori

Une probabilité a priori est la probabilité qu'une observation soit classée dans un groupe avant de collecter les données. Par exemple, si vous classez les acheteurs d'une voiture spécifique, vous savez peut-être déjà que 60 % des acheteurs sont des hommes et 40 % sont des femmes.

Utilisez les probabilités a priori pour augmenter l’exactitude de la classification pour certaines classes. CART prend différentes décisions d’équilibrage interne en fonction des probabilités a priori. Augmenter la probabilité d’une classe et diminuer la probabilité d’une autre classe permet d’équilibrer les taux de mauvais classement pour différentes classes. Par exemple, augmenter la probabilité d’événement et diminuer la probabilité de non-événement peut améliorer le taux de faux positifs, mais aggraver le taux de faux négatifs.

L’augmentation de la probabilité d’événement abaissera le seuil de nœud pour l’affectation de classe à l’événement. Ainsi, les nœuds avec des fractions inférieures de la classe d’événement sont classés comme l’événement. Les probabilités a priori ont le plus fort impact sur le développement de intégralité de l’arbre pendant son étape de croissance et fournissent des moyens puissants pour modifier le modèle final.

Interprétation

Identique pour toutes les classes
Par exemple, avec quatre classes, chaque probabilité de classe est de 0,25.
Correspondre au total des fréquences d'échantillonnage
Par exemple, la première classe peut contenir 50 % des fréquences, la deuxième classe peut contenir 30 % des fréquences, et la dernière classe peut contenir 20 % des fréquences. Ainsi, les probabilités a priori sont 0,50, 0,30 et 0,20.
Spécifié par l'utilisateur
Les probabilités a priori sont fondées sur votre jugement et peuvent être modifiées pour équilibrer les taux de mauvais classement. La somme des probabilités doit être égale à 1.

Partition des nœuds

Minitab fournit les méthodes suivantes de division des nœuds :
  • Gini
  • Entropie
  • Probabilité de classe
  • Twoing — disponible avec une réponse multinomiale. La méthode Twoing est identique à la méthode Gini pour une réponse binaire.

Interprétation

Utilisez la méthode de division pour trouver l’arbre qui correspond le mieux à vos données. Selon vos données, certaines méthodes de division peuvent être plus efficaces que d’autres. Comparez les résultats de plusieurs méthodes de division pour déterminer le meilleur choix pour votre application.

Arbre optimal

Minitab utilise le coût minimal de mauvais classement pour déterminer l’arbre optimal. Vous pouvez également spécifier une étendue d’erreur type autour du coût de mauvais classement pour élargir la sélection de l’arbre optimal.
Coût minimum de mauvais classement
Minitab utilise le coût relatif minimal pour sélectionner l’arbre optimal.
A moins de X erreur(s) type(s) du coût minimal de mauvais classement
Minitab identifie les arbres dont les coûts de mauvais classement se situent dans l’étendue d’erreur type que vous spécifiez et sélectionne l’arbre avec le plus petit nombre de nœuds terminaux dans cette étendue comme arbre optimal.

Validation de modèle

Minitab utilise la méthode de validation croisée ou un ensemble de test distinct pour valider le modèle. Avec la validation croisée, vous pouvez spécifier les lignes pour chaque ensemble, ou autoriser une sélection aléatoire. Avec un ensemble de test distinct, vous pouvez spécifier les lignes pour les ensembles d’apprentissage et de test ou autoriser une sélection aléatoire.

Pénalité de valeur manquante

Par défaut, l’analyse n’a pas de pénalité de valeur manquante et cette ligne n’est pas présente. La pénalité de valeur manquante pénalise une division compétitive en fonction de la proportion de valeurs manquantes pour chaque nœud. Ainsi, une division compétitive avec de nombreuses valeurs manquantes dans un nœud est moins susceptible d'avoir un rôle de séparateur principal.

Pénalité de catégorie de niveau élevé

Par défaut, l’analyse n’a pas de pénalité de catégorie de niveau élevé et cette ligne n’est pas présente. La pénalité de catégorie de niveau élevé pénalise une division compétitive en fonction du nombre de niveaux de catégorie par rapport à la taille du nœud pour chaque nœud. Ainsi, une division compétitive avec de nombreux niveaux dans un nœud est moins susceptible d'avoir un rôle de séparateur principal.

Pondérations

Indique la colonne utilisée pour pondérer la réponse.

Lignes utilisées

Nombre d’observations de réponse utilisées dans l’arbre.

Lignes non utilisées

Nombre d'observations de réponse manquantes. Cela inclut également les valeurs manquantes ou les zéros dans la colonne de pondération.