Le diagramme Coût de mauvais classement par rapport au nombre de nœuds terminaux affiche le coût de mauvais classement pour chaque arbre dans la séquence qui produit l’arbre optimal. Par défaut, l’arbre optimal initial est le plus petit arbre dont le coût de mauvais classement se situe à moins d’une erreur type de l’arbre produisant le coût de mauvais classement le plus faible. Lorsque l’analyse utilise une validation croisée ou un ensemble de données de test, le coût de mauvais classement provient de l’échantillon de validation. Les coûts de mauvais classement de l’échantillon de validation se stabilisent généralement et finissent par augmenter à mesure que l’arbre grandit.
Nombre total de prédicteurs | 13 |
---|---|
Prédicteurs importants | 13 |
Nombre de nœuds terminaux | 4 |
Taille minimale du nœud terminal | 27 |
Statistiques | Apprentissage | Test |
---|---|---|
Log de vraisemblance de moyenne | 0,4772 | 0,5164 |
Zone située sous la courbe ROC | 0,8192 | 0,8001 |
IC à 95 % | (0,3438; 1) | (0,7482; 0,8520) |
Lift | 1,6189 | 1,8849 |
Coût de mauvais classement | 0,3856 | 0,4149 |
L’arbre dans la séquence avec 4 nœuds a un coût de mauvais classement proche de 0,41. Le modèle dans lequel le coût de mauvais classement diminue se poursuit après l’arbre à 4 nœuds. Dans un cas comme celui-ci, les analystes choisissent d’étudier certains des autres arbres simples avec des coûts de mauvais classement plus faibles.
Nombre total de prédicteurs | 13 |
---|---|
Prédicteurs importants | 13 |
Nombre de nœuds terminaux | 7 |
Taille minimale du nœud terminal | 5 |
Statistiques | Apprentissage | Test |
---|---|---|
Log de vraisemblance de moyenne | 0,3971 | 0,5094 |
Zone située sous la courbe ROC | 0,8861 | 0,8200 |
IC à 95 % | (0,5590; 1) | (0,7702; 0,8697) |
Lift | 1,9376 | 1,8165 |
Coût de mauvais classement | 0,2924 | 0,3909 |
L’arbre de classification qui minimise le coût relatif de mauvais classement à validation croisée comprend 7 nœuds terminaux et a un coût relatif de mauvais classement d’environ 0,39. D'autres statistiques, telles que la zone située sous la courbe ROC, confirment également que l'arbre à 7 nœuds fonctionne mieux que l'arbre à 4 nœuds. Comme l’arbre à 7 nœuds a suffisamment de nœuds pour être également interprété facilement, les analystes décident d’utiliser l’arbre à 7 nœuds afin d’étudier les variables importantes et de faire des prédictions.
Après avoir sélectionné un arbre, étudiez les nœuds terminaux les plus purs sur le diagramme. Le bleu représente le niveau d’événement et le rouge représente le niveau de non-événement.
Vous pouvez cliquer avec le bouton droit de la souris sur l’arborescence afin d’afficher la vue de partition de nœud de l’arbre. Cette vue est utile lorsque vous avez un grand arbre et que vous voulez uniquement voir quelles variables divisent les nœuds.
Les nœuds continuent de se diviser jusqu’à ce que les nœuds terminaux ne puissent plus être divisés en groupements supplémentaires. Les nœuds qui sont majoritairement bleus indiquent une forte proportion du niveau d’événement. Les nœuds qui sont majoritairement rouges indiquent une forte proportion du niveau de non-événement.
La division suivante pour le nœud enfant gauche et le nœud enfant droit est Type de douleur thoracique, avec une douleur évaluée sur une échelle allant de 1 à 4. Le nœud 2 est le parent du nœud terminal 1, et le nœud 5 est le parent du nœud terminal 7.
Utilisez la courbe d’importance relative des variables pour déterminer quels prédicteurs sont les variables les plus importantes pour l’arbre.
Les variables importantes constituent un séparateur principal ou de substitution dans l’arbre. La variable avec le score d’amélioration le plus élevé est la variable la plus importante, et les autres variables sont classées en conséquence. L’importance relative des variables normalise les valeurs d’importance pour faciliter l’interprétation. L’importance relative se définit comme l’amélioration en pourcentage par rapport au prédicteur le plus important.
Les valeurs d’importance relative des variables varient de 0 % à 100 %. La variable la plus importante a toujours une importance relative de 100 %. Si une variable n’est pas dans l’arbre, cette variable n’est pas importante.
L’arbre le plus exact est l’arbre dont le coût de mauvais classement est le plus faible. Parfois, les arbres plus simples avec des coûts de mauvais classement légèrement plus élevés fonctionnent tout aussi bien. Vous pouvez utiliser le diagramme Coût de mauvais classement par rapport aux nœuds terminaux afin d’identifier d’autres arbres.
La courbe Fonction d’efficacité du récepteur (ROC) montre la capacité d’un arbre à classer les données. La courbe ROC représente le taux de vrais positifs sur l’axe des Y et le taux de faux positifs sur l’axe des X. Le taux de vrais positifs est également appelé puissance. Le taux de faux positifs est également appelé erreur de type I.
Lorsqu’un arbre de classification peut parfaitement séparer les catégories dans la variable de réponse, la zone sous la courbe ROC est de 1, ce qui représente le meilleur modèle de classement possible. Alternativement, si un arbre de classification ne peut pas distinguer les catégories et effectue des affectations de manière complètement aléatoire, alors la zone sous la courbe ROC est de 0,5.
Lorsque vous utilisez une technique de validation dans le but de créer l’arbre, Minitab fournit des informations sur les performances de l’arbre sur les données d’apprentissage et de validation (test). Des courbes sont rapprochées indiquent une plus faible probabilité de surapprentissage de l’arbre. Les performances de l’arbre avec les données de test indiquent la capacité de l’arbre à prédire de nouvelles données.
Classe prévue (apprentissage) | |||||||
---|---|---|---|---|---|---|---|
Classe prévue (test) | |||||||
Classe réelle | Dénombrement | Oui | Non | % correct | Oui | Non | % correct |
Oui (Événement) | 139 | 117 | 22 | 84,2 | 105 | 34 | 75,5 |
Non | 164 | 22 | 142 | 86,6 | 24 | 140 | 85,4 |
Total | 303 | 139 | 164 | 85,5 | 129 | 174 | 80,9 |
Statistiques | Apprentissage (%) | Test (%) |
---|---|---|
Taux de vrai positif (sensibilité ou puissance) | 84,2 | 75,5 |
Taux de faux positif (erreur de type I) | 13,4 | 14,6 |
Taux de faux négatif (erreur de type II) | 15,8 | 24,5 |
Taux de vrai négatif (spécificité) | 86,6 | 85,4 |
Le pourcentage d’exactitude est en moyenne de 85,5 % pour les données d'apprentissage et de 80,9 % pour les données de test.