Exemple de Classification CART®

Une équipe de chercheurs recueille et publie des informations détaillées sur les facteurs ayant une influence sur les maladies cardiaques. Les variables incluent l’âge, le sexe, les niveaux de cholestérol, la fréquence cardiaque maximale et plus encore. Cet exemple utilise un ensemble de données publiques comprenant des informations détaillées sur les maladies cardiaques. Les données d’origine proviennent du site archive.ics.uci.edu.

Les chercheurs souhaitent créer un arbre de classification qui identifie les prédicteurs importants pour indiquer si un patient souffre d’une maladie cardiaque.

  1. Ouvrez les données échantillons, MaladieCardiaqueBinaire.MTW.
  2. Sélectionnez Stat > Analyse prédictive > Classification CART®.
  3. Dans la liste déroulante, sélectionnez Réponse binaire.
  4. Dans Réponse, saisissez Maladies cardiaques.
  5. Dans Evénement de réponse, sélectionnez Oui pour indiquer qu'une maladie cardiaque a été détectée chez le patient.
  6. Dans Prédicteurs continus, saisissez Âge, Pression artérielle de repos, Cholestérol, Fréquence cardiaque maximale et Vieux pic.
  7. Dans Prédicteurs de catégorie, saisissez Sexe, Type de douleur thoracique, Sucre de sang de jeûne, Repos ECG, Exercice Angina, Pente, Principaux navires et Thal.
  8. Cliquez sur OK.

Interpréter des résultats

Par défaut, Minitab affiche le plus petit arbre dont le coût de mauvais classement se situe à moins d’1 erreur type de l’arbre produisant le coût de mauvais classement le plus faible. Cet arbre comprend 4 nœuds terminaux.

Avant d’examiner l’arbre, les chercheurs consultent le diagramme détaillant le coût de mauvais classement déterminé par la validation croisée et le nombre de nœuds terminaux. Dans ce diagramme, le modèle dans lequel le coût de mauvais classement diminue se poursuit après l’arbre à 4 nœuds. Dans un cas comme celui-ci, les analystes choisissent d'étudier certains des autres arbres simples avec des coûts de mauvais classement plus faibles.

Sélectionner un arbre alternatif

  1. Dans la sortie, cliquez sur Sélectionner un arbre alternatif.
  2. Dans le diagramme, sélectionnez l’arbre à 7 nœuds avec le coût de mauvais classement le plus faible et la meilleure valeur ROC.
  3. Cliquez sur Créer un arbre.

Interpréter des résultats

Dans l’arborescence, les éléments bleus correspondent au niveau d’événement. Les éléments rouges correspondent au niveau du non-événement. Dans cette sortie, le niveau d’événement est "Oui" et indique que cette personne souffre d’une maladie cardiaque. Le niveau de non-événement est "Non" et indique que cette personne ne souffre pas de maladie cardiaque.

Au nœud racine, 139 événements Oui et 164 événements Non ont été dénombrés. Le nœud racine est divisé à l’aide de la variable THAL. Lorsque THAL = Normal, allez au nœud gauche (Nœud 2). Lorsque THAL = Fixe ou Réversible, allez au nœud droit (Nœud 5).
  • Nœud 2 : la variable THAL avait la valeur Normal 167 fois. Sur les 167 cas, 38 ou 22,8 % sont oui et 129 ou 77,2 % sont non.
  • Nœud 5 : la variable THAL avait la valeur sur Fixe ou Réversible 136 fois. Sur les 136 cas, 101 ou 74,3% sont oui et 35 ou 25,7% sont non.

La division suivante pour le nœud enfant gauche et le nœud enfant droit est Type de douleur thoracique, avec une douleur évaluée sur une échelle allant de 1 à 4.

Explorez d'autres nœuds pour déterminer quelles variables sont les plus intéressantes. Les nœuds qui sont majoritairement bleus indiquent une forte proportion du niveau d’événement. Les nœuds qui sont majoritairement rouges indiquent une forte proportion du niveau de non-événement.

L’arborescence utilise l’ensemble de données ou l’ensemble de données d’apprentissage. Vous pouvez basculer entre la vue détaillée et la vue de partition de nœud de l’arbre.

Cet arbre a un coût de mauvais classement d’environ 0,391.

La variable de prédiction la plus importante est Type de douleur thoracique. Si la contribution de la variable prédictive supérieure, le type de douleur thoracique, est de 100 %, alors la variable importante suivante, les vaisseaux majeurs, a une contribution de 86,5 %. Cela signifie que les vaisseaux majeurs sont 86,5% aussi importants que le type de douleur thoracique dans cet arbre de classification.

La zone sous la courbe ROC pour les données de test est de 0,8200, ce qui indique un rendement de classement raisonnable, dans beaucoup d'applications. Pour les applications qui nécessitent une plus grande précision de prédiction, vous pouvez essayer d’améliorer les performances avec un modèleClassification TreeNet® ou un modèle Classification Random Forests®.

Dans cet exemple, la courbe des gains augmente fortement au-dessus de la ligne de référence, puis s'aplatit. Dans ce cas, environ 40% des données représentent environ 70% des vrais positifs.

Dans cet exemple, la courbe de lift augmente au-dessus de la ligne de référence, puis ralentit progressivement.

Classification CART® de 7 nœuds: Maladies cardiaques vs Âge; Pression artérielle de repos; Cholestérol; Fréquence cardiaque maximale; Vieux pic; Sexe; Sucre de sang de jeûne; Exercice Angina; Repos ECG; Pente; Thal; Type de douleur thoracique; Principaux navires

Méthode Probabilités a priori Identique pour toutes les classes Division des nœuds Gini Arbre optimal Coût minimum de mauvais classement Validation de modèle Validation croisée pour 10 ensemble(s) Lignes utilisées 303
Informations de réponse binaire Variable Classe Dénombrement % Maladies cardiaques Oui (Événement) 139 45,9 Non 164 54,1 Total 303 100,0
Récapitulatif du modèle Nombre total de prédicteurs 13 Prédicteurs importants 13 Nombre de nœuds terminaux 7 Taille minimale du nœud terminal 5 Statistiques Apprentissage Test Log de vraisemblance de moyenne 0,3971 0,5094 Zone située sous la courbe ROC 0,8861 0,8200 IC à 95 % (0,5590; 1) (0,7702; 0,8697) Lift 1,9376 1,8165 Coût de mauvais classement 0,2924 0,3909
Matrice de confusion Classe prévue (apprentissage) Classe prévue (test) Classe réelle Dénombrement Oui Non % correct Oui Non % correct Oui (Événement) 139 117 22 84,2 105 34 75,5 Non 164 22 142 86,6 24 140 85,4 Total 303 139 164 85,5 129 174 80,9 Apprentissage Statistiques (%) Test (%) Taux de vrai positif (sensibilité ou puissance) 84,2 75,5 Taux de faux positif (erreur de type I) 13,4 14,6 Taux de faux négatif (erreur de type II) 15,8 24,5 Taux de vrai négatif (spécificité) 86,6 85,4
Mauvais classement Entrée coût de mauvais classement Classe prévue Classe réelle Oui Non Oui 1,00 Non 1,00 Apprentissage Test Classe réelle Dénombrement Mal classé % erreur Coût Mal classé Oui (Événement) 139 22 15,8 0,1583 34 Non 164 22 13,4 0,1341 24 Total 303 44 14,5 0,1462 58
Classe réelle % erreur Coût Oui (Événement) 24,5 0,2446 Non 14,6 0,1463 Total 19,1 0,1955