Exemple de Classification CART®

Une équipe de chercheurs recueille et publie des informations détaillées sur les facteurs ayant une influence sur les maladies cardiaques. Les variables incluent l’âge, le sexe, les niveaux de cholestérol, la fréquence cardiaque maximale et plus encore. Cet exemple utilise un ensemble de données publiques comprenant des informations détaillées sur les maladies cardiaques. Les données d’origine proviennent du site archive.ics.uci.edu.

Les chercheurs souhaitent créer un arbre de classification qui identifie les prédicteurs importants pour indiquer si un patient souffre d’une maladie cardiaque.

  1. Ouvrez les données échantillons, MaladieCardiaqueBinaire.MTW.
  2. Sélectionnez Stat > Analyse prédictive > Classification CART®.
  3. Dans la liste déroulante, sélectionnez Réponse binaire.
  4. Dans Réponse, saisissez Maladies cardiaques.
  5. Dans Evénement de réponse, sélectionnez Oui pour indiquer qu'une maladie cardiaque a été détectée chez le patient.
  6. Dans Prédicteurs continus, saisissez Âge, Pression artérielle de repos, Cholestérol, Fréquence cardiaque maximale et Vieux pic.
  7. Dans Prédicteurs de catégorie, saisissez Sexe, Type de douleur thoracique, Sucre de sang de jeûne, Repos ECG, Exercice Angina, Pente, Principaux navires et Thal.
  8. Cliquez sur OK.

Interpréter des résultats

Par défaut, Minitab affiche le plus petit arbre dont le coût de mauvais classement se situe à moins d’1 erreur type de l’arbre produisant le coût de mauvais classement le plus faible. Cet arbre comprend 4 nœuds terminaux.

Avant d’examiner l’arbre, les chercheurs consultent le diagramme détaillant le coût de mauvais classement déterminé par la validation croisée et le nombre de nœuds terminaux. Dans ce diagramme, le modèle dans lequel le coût de mauvais classement diminue se poursuit après l’arbre à 4 nœuds. Dans un cas comme celui-ci, les analystes choisissent d'étudier certains des autres arbres simples avec des coûts de mauvais classement plus faibles.

Sélectionner un arbre alternatif

  1. Dans la sortie, cliquez sur Sélectionner un arbre alternatif.
  2. Dans le diagramme, sélectionnez l’arbre à 7 nœuds avec le coût de mauvais classement le plus faible et la meilleure valeur ROC.
  3. Cliquez sur Créer un arbre.

Interpréter des résultats

Dans l’arborescence, les éléments bleus correspondent au niveau d’événement. Les éléments rouges correspondent au niveau du non-événement. Dans cette sortie, le niveau d’événement est "Oui" et indique que cette personne souffre d’une maladie cardiaque. Le niveau de non-événement est "Non" et indique que cette personne ne souffre pas de maladie cardiaque.

Au nœud racine, 139 événements Oui et 164 événements Non ont été dénombrés. Le nœud racine est divisé à l’aide de la variable THAL. Lorsque THAL = Normal, allez au nœud gauche (Nœud 2). Lorsque THAL = Fixe ou Réversible, allez au nœud droit (Nœud 5).
  • Nœud 2 : la variable THAL avait la valeur Normal 167 fois. Sur les 167 cas, 38 ou 22,8 % sont oui et 129 ou 77,2 % sont non.
  • Nœud 5 : la variable THAL avait la valeur sur Fixe ou Réversible 136 fois. Sur les 136 cas, 101 ou 74,3% sont oui et 35 ou 25,7% sont non.

La division suivante pour le nœud enfant gauche et le nœud enfant droit est Type de douleur thoracique, avec une douleur évaluée sur une échelle allant de 1 à 4.

Explorez d'autres nœuds pour déterminer quelles variables sont les plus intéressantes. Les nœuds qui sont majoritairement bleus indiquent une forte proportion du niveau d’événement. Les nœuds qui sont majoritairement rouges indiquent une forte proportion du niveau de non-événement.

L’arborescence utilise l’ensemble de données ou l’ensemble de données d’apprentissage. Vous pouvez basculer entre la vue détaillée et la vue de partition de nœud de l’arbre.

Cet arbre a un coût de mauvais classement d’environ 0,391.

La variable de prédiction la plus importante est Type de douleur thoracique. Si la contribution de la variable prédictive supérieure, le type de douleur thoracique, est de 100 %, alors la variable importante suivante, les vaisseaux majeurs, a une contribution de 86,5 %. Cela signifie que les vaisseaux majeurs sont 86,5% aussi importants que le type de douleur thoracique dans cet arbre de classification.

La zone sous la courbe ROC pour les données de test est de 0,8200, ce qui indique un rendement de classement raisonnable, dans beaucoup d'applications. Pour les applications qui nécessitent une plus grande précision de prédiction, vous pouvez essayer d’améliorer les performances avec un modèleClassification TreeNet® ou un modèle Classification Random Forests®.

Dans cet exemple, la courbe des gains augmente fortement au-dessus de la ligne de référence, puis s'aplatit. Dans ce cas, environ 40% des données représentent environ 70% des vrais positifs.

Dans cet exemple, la courbe de lift augmente au-dessus de la ligne de référence, puis ralentit progressivement.

Classification CART® de 7 nœuds: Maladies cardiaques vs Âge; Pression artérielle de repos; Cholestérol; Fréquence cardiaque maximale; Vieux pic; Sexe; Sucre de sang de jeûne; Exercice Angina; Repos ECG; Pente; Thal; Type de douleur thoracique; Principaux navires

Méthode

Probabilités a prioriIdentique pour toutes les classes
Division des nœudsGini
Arbre optimalCoût minimum de mauvais classement
Validation de modèleValidation croisée pour 10 ensemble(s)
Lignes utilisées303

Informations de réponse binaire

VariableClasseDénombrement%
Maladies cardiaquesOui (Événement)13945,87
  Non16454,13
  Total303100,00

Récapitulatif du modèle

Nombre total de prédicteurs13
Prédicteurs importants13
Nombre de nœuds terminaux7
Taille minimale du nœud terminal5
StatistiquesApprentissageTest
Log de vraisemblance de moyenne0,39710,5094
Zone située sous la courbe ROC0,88610,8200
        IC à 95 %(0,5590; 1)(0,7702; 0,8697)
Lift1,93761,8165
Coût de mauvais classement0,29240,3909

Matrice de confusion



Classe prévue
(apprentissage)





Classe prévue (test)
Classe réelleDénombrementOuiNon% correctOuiNon% correct
Oui (Événement)1391172284,21053475,5
Non1642214286,62414085,4
Total30313916485,512917480,9
StatistiquesApprentissage
(%)
Test (%)
Taux de vrai positif (sensibilité ou puissance)84,275,5
Taux de faux positif (erreur de type I)13,414,6
Taux de faux négatif (erreur de type II)15,824,5
Taux de vrai négatif (spécificité)86,685,4

Mauvais classement

Entrée coût
de mauvais
classement
Classe prévue
Classe réelleOuiNon
Oui  1,00
Non1,00 


ApprentissageTest
Classe réelleDénombrementMal classé% erreurCoûtMal classé% erreurCoût
Oui (Événement)1392215,80,15833424,50,2446
Non1642213,40,13412414,60,1463
Total3034414,50,14625819,10,1955