Interpréter les principaux résultats pour Classification CART®

Complétez les étapes suivantes pour interpréter Classification CART®. La principale sortie comprend l’arborescence, les coûts de mauvais classement, l’importance des variables et la matrice de confusion.

Etape 1 : Etudier les arbres alternatifs

Le diagramme Coût de mauvais classement par rapport au nombre de nœuds terminaux affiche le coût de mauvais classement pour chaque arbre dans la séquence qui produit l’arbre optimal. Par défaut, l’arbre optimal initial est le plus petit arbre dont le coût de mauvais classement se situe à moins d’une erreur type de l’arbre produisant le coût de mauvais classement le plus faible. Lorsque l’analyse utilise une validation croisée ou un ensemble de données de test, le coût de mauvais classement provient de l’échantillon de validation. Les coûts de mauvais classement de l’échantillon de validation se stabilisent généralement et finissent par augmenter à mesure que l’arbre grandit.

Cliquez sur Sélectionner un arbre alternatif pour ouvrir un diagramme interactif qui comprend un tableau de statistiques récapitulatives du modèle. Utilisez le diagramme pour étudier les arbres alternatifs ayant des performances similaires. Généralement, vous sélectionnez un arbre alternatif pour l'une des deux raisons suivantes :
  • L’arbre optimal fait partie d’un modèle dans lequel les coûts de mauvais classement diminuent. Un ou plusieurs arbres ayant quelques nœuds de plus font partie du même modèle. Généralement, lorsque vous faites des prévisions à partir d'un arbre, il est préférable de bénéficier de la plus grande exactitude possible. Si l’arbre est assez simple, vous pouvez également l’utiliser pour déterminer l’influence de chaque variable de prédiction sur les valeurs de réponse.
  • L’arbre optimal fait partie d’un modèle dans lequel les coûts de mauvais classement sont relativement stables. Un ou plusieurs arbres présentant des statistiques récapitulatives similaires pour le modèle ont beaucoup moins de nœuds que l'arbre optimal. Généralement, un arbre avec moins de nœuds terminaux donne une idée plus claire de l'effet de chaque variable de prédiction sur les valeurs de réponse. Un arbre plus petit facilite également l'identification de quelques groupes cibles pour effectuer d'autres études. Si la différence dans l'exactitude de prévision pour un arbre plus petit est négligeable, vous pouvez également utiliser le plus petit arbre pour évaluer les relations entre les variables de réponse et de prévision.

CART® classification de 4 nœuds: Maladies cardiaques par rapport à Âge; Pression artérielle de repos; Cholestérol; Fréquence cardiaque maximale; Vieux pic; Sexe; Sucre de sang de jeûne; Exercice Angina; Repos ECG; Pente; Thal; Type de douleur thoracique; Principaux navires

Récapitulatif du modèle Nombre total de prédicteurs 13 Prédicteurs importants 13 Nombre de nœuds terminaux 4 Taille minimale du nœud terminal 27 Statistiques Formation Test R carré de la somme des carrés des écarts 0,3082 0,2513 Log de vraisemblance de moyenne 0,4772 0,5164 Zone située sous la courbe ROC 0,8192 0,8001 IC à 95 % (0,3438; 1) (0,7482; 0,8520) Lift 1,6189 1,8849 Coût de mauvais classement 0,3856 0,4149
Principaux résultats : Diagramme et récapitulatif du modèle pour l’arbre à 4 nœuds

L’arbre dans la séquence avec 4 nœuds a un coût de mauvais classement proche de 0,41. Le modèle dans lequel le coût de mauvais classement diminue se poursuit après l’arbre à 4 nœuds. Dans un cas comme celui-ci, les analystes choisissent d’étudier certains des autres arbres simples avec des coûts de mauvais classement plus faibles.

CART® classification de 7 nœuds: Maladies cardiaques par rapport à Âge; Pression artérielle de repos; Cholestérol; Fréquence cardiaque maximale; Vieux pic; Sexe; Sucre de sang de jeûne; Exercice Angina; Repos ECG; Pente; Thal; Type de douleur thoracique; Principaux navires

Récapitulatif du modèle Nombre total de prédicteurs 13 Prédicteurs importants 13 Nombre de nœuds terminaux 7 Taille minimale du nœud terminal 5 Statistiques Formation Test R carré de la somme des carrés des écarts 0,4243 0,2615 Log de vraisemblance de moyenne 0,3971 0,5094 Zone située sous la courbe ROC 0,8861 0,8200 IC à 95 % (0,5590; 1) (0,7702; 0,8697) Lift 1,9376 1,8165 Coût de mauvais classement 0,2924 0,3909
Principaux résultats : Diagramme et récapitulatif du modèle pour l’arbre à 7 nœuds

L’arbre de classification qui minimise le coût relatif de mauvais classement à validation croisée comprend 7 nœuds terminaux et a un coût relatif de mauvais classement d’environ 0,39. D'autres statistiques, telles que la zone située sous la courbe ROC, confirment également que l'arbre à 7 nœuds fonctionne mieux que l'arbre à 4 nœuds. Comme l’arbre à 7 nœuds a suffisamment de nœuds pour être également interprété facilement, les analystes décident d’utiliser l’arbre à 7 nœuds afin d’étudier les variables importantes et de faire des prédictions.

Etape 2 : Etudier les nœuds terminaux les plus purs sur l’arborescence

Après avoir sélectionné un arbre, étudiez les nœuds terminaux les plus purs sur le diagramme. Le bleu représente le niveau d’événement et le rouge représente le niveau de non-événement.

Remarque

Vous pouvez cliquer avec le bouton droit de la souris sur l’arborescence afin d’afficher la vue de partition de nœud de l’arbre. Cette vue est utile lorsque vous avez un grand arbre et que vous voulez uniquement voir quelles variables divisent les nœuds.

Les nœuds continuent de se diviser jusqu’à ce que les nœuds terminaux ne puissent plus être divisés en groupements supplémentaires. Les nœuds qui sont majoritairement bleus indiquent une forte proportion du niveau d’événement. Les nœuds qui sont majoritairement rouges indiquent une forte proportion du niveau de non-événement.

Principal résultat : Arborescence

Cet arbre de classification comprend 7 nœuds terminaux. Le bleu représente le niveau d’événement (Oui) et le rouge représente le niveau de non-événement (Non). L’arborescence utilise l’ensemble de données d’apprentissage. Vous pouvez basculer entre la vue détaillée et la vue de partition de nœud de l’arbre.

Au nœud racine, l’événement Oui compte 139 cas, et l’événement Non 164. Le nœud racine est divisé à l’aide de la variable THAL. Lorsque THAL = Normal, allez au nœud gauche (Nœud 2). Lorsque THAL = Fixe ou Réversible, allez au nœud droit (Nœud 5).
  • Nœud 2 : THAL avait la valeur sur Normal 167 fois. Sur ces 167 cas, 38 (22,8 %) appartenaient à l’événement Oui et 129 (77,2 %) à l’événement Non.
  • Nœud 5 : THAL avait la valeur sur Fixe ou Réversible 136 fois. Sur ces 136 cas, 101 (74,3 %) appartenaient à l’événement Oui et 35 (25,7 %) à l’événement Non.

La division suivante pour le nœud enfant gauche et le nœud enfant droit est Type de douleur thoracique, avec une douleur évaluée sur une échelle allant de 1 à 4. Le nœud 2 est le parent du nœud terminal 1, et le nœud 5 est le parent du nœud terminal 7.

Le nœud racine compte 45,9 % d’événements Oui et 54,1 % d’événements Non. Les nœuds terminaux suivants sont les plus purs et montrent une bonne séparation des cas :
  • Nœud terminal 1 : pour 100 cas, la variable THAL avait la valeur Normal, et la variable Douleur thoracique avait la valeur 2 ou 3. Sur ces 100 cas, 9 (9 %) appartenaient à l’événement Oui et 91 (91 %) à l’événement Non.
  • Nœud terminal 7 : pour 90 cas, la variable THAL avait la valeur Fixe ou Réversible, et la variable Douleur thoracique avait la valeur 4. Sur ces 90 cas, 80 (88.9 %) appartenaient à l’événement Oui et 10 (11,1 %) à l’événement Non.
Le classement des nœuds terminaux du plus pur au moins pur est : 1, 7, 2, 3, 6, 4 et 5.

Etape 3 : Déterminer les variables importantes

Utilisez la courbe d’importance relative des variables pour déterminer quels prédicteurs sont les variables les plus importantes pour l’arbre.

Les variables importantes constituent un séparateur principal ou de substitution dans l’arbre. La variable avec le score d’amélioration le plus élevé est la variable la plus importante, et les autres variables sont classées en conséquence. L’importance relative des variables normalise les valeurs d’importance pour faciliter l’interprétation. L’importance relative se définit comme l’amélioration en pourcentage par rapport au prédicteur le plus important.

Les valeurs d’importance relative des variables varient de 0 % à 100 %. La variable la plus importante a toujours une importance relative de 100 %. Si une variable n’est pas dans l’arbre, cette variable n’est pas importante.

Principal résultat : Importance relative des variables

Dans cet exemple, la variable de prédiction la plus importante est Type de douleur thoracique. Si la contribution de la principale variable de prédiction, Type de douleur thoracique, est de 100 %, alors vous pouvez comparer les autres variables à Type de douleur thoracique afin de déterminer leur importance. Ainsi, vous pouvez vous concentrer sur les prédicteurs les plus importants. La liste suivante décrit les variables les plus importantes de cet arbre :
  • Principaux navires est environ 87 % aussi importante que Type de douleur thoracique.
  • Thal et Exercice Angina sont environ 65 % aussi importantes que Type de douleur thoracique.
  • Fréquence cardiaque maximale est environ 55 % aussi importante que Type de douleur thoracique.
  • Vieux pic est environ 50 % aussi importante que Type de douleur thoracique.
  • Pente, Âge, Sexe, et Pression artérielle de repos sont bien moins importantes que Type de douleur thoracique.

Bien que leur importance soit positive, les analystes pourraient décider que Cholestérol, Repos ECG, et Sucre de sang de jeûne ne contribuent pas de façon importante à l’arbre.

Etape 4 : Evaluer la puissance prédictive de votre arbre

L’arbre le plus exact est l’arbre dont le coût de mauvais classement est le plus faible. Parfois, les arbres plus simples avec des coûts de mauvais classement légèrement plus élevés fonctionnent tout aussi bien. Vous pouvez utiliser le diagramme Coût de mauvais classement par rapport aux nœuds terminaux afin d’identifier d’autres arbres.

La courbe Fonction d’efficacité du récepteur (ROC) montre la capacité d’un arbre à classer les données. La courbe ROC représente le taux de vrais positifs sur l’axe des Y et le taux de faux positifs sur l’axe des X. Le taux de vrais positifs est également appelé puissance. Le taux de faux positifs est également appelé erreur de type I.

Lorsqu’un arbre de classification peut parfaitement séparer les catégories dans la variable de réponse, la zone sous la courbe ROC est de 1, ce qui représente le meilleur modèle de classement possible. Alternativement, si un arbre de classification ne peut pas distinguer les catégories et effectue des affectations de manière complètement aléatoire, alors la zone sous la courbe ROC est de 0,5.

Lorsque vous utilisez une technique de validation dans le but de créer l’arbre, Minitab fournit des informations sur les performances de l’arbre sur les données d’apprentissage et de validation (test). Des courbes sont rapprochées indiquent une plus faible probabilité de surapprentissage de l’arbre. Les performances de l’arbre avec les données de test indiquent la capacité de l’arbre à prédire de nouvelles données.

La matrice de confusion montre également la capacité de l’arbre à séparer correctement les classes en utilisant ces mesures :
  • Taux de vrais positifs (TPR) — probabilité qu’un cas d’événement soit prédit correctement
  • Taux de faux positifs (FPR) — probabilité qu’un cas de non-événement soit prédit de façon incorrecte
  • Taux de faux négatifs (FNR) — probabilité qu’un cas d’événement soit prédit de façon incorrecte
  • Taux de vrais négatifs (TNR) — probabilité qu’un cas de non-événement soit prédit correctement
Principal résultat : Fonction d’efficacité du récepteur (courbe ROC)

Pour cet exemple, la zone sous la courbe ROC est de 0,886 pour les données d’apprentissage et de 0,82 pour les données de test. Ces valeurs indiquent que l’arbre de classification est un classificateur raisonnable, dans la plupart des applications.

CART® classification de 7 nœuds: Maladies cardiaques par rapport à Âge; Pression artérielle de repos; Cholestérol; Fréquence cardiaque maximale; Vieux pic; Sexe; Sucre de sang de jeûne; Exercice Angina; Repos ECG; Pente; Thal; Type de douleur thoracique; Principaux navires

Matrice de confusion Classe prévue (formation) Classe prévue (test) Classe réelle Dénombrement Oui Non % correct Oui Non % correct Oui (Événement) 139 117 22 84,2 105 34 75,5 Non 164 22 142 86,6 24 140 85,4 Total 303 139 164 85,5 129 174 80,9 Formation Statistiques (%) Test (%) Taux de vrai positif (sensibilité ou puissance) 84,2 75,5 Taux de faux positif (erreur de type I) 13,4 14,6 Taux de faux négatif (erreur de type II) 15,8 24,5 Taux de vrai négatif (spécificité) 86,6 85,4
Principal résultat : Matrice de confusion

Dans cet exemple, l’arbre prédit raisonnablement bien les événements et les non-événements parce que les taux de vrai résultat sont relativement élevés et les taux de faux résultat sont relativement faibles.
  • Taux de vrais positifs (TPR) — 84,2 % pour les données d’apprentissage et 75,5 % pour les données de test
  • Taux de faux positifs (FPR) — 13,4 % pour les données d’apprentissage et 14,6 % pour les données de test
  • Taux de faux négatifs (FNR) — 15,8 % pour les données d’apprentissage et 24,5 % pour les données de test
  • Taux de vrais négatifs (TNR) — 86,6 % pour les données d’apprentissage et 85,4 % pour les données de test

Le pourcentage d’exactitude est en moyenne de 85,5 % pour les données d'apprentissage et de 80,9 % pour les données de test.