Exemple de Classification CART®

Une équipe de chercheurs recueille et publie des informations détaillées sur les facteurs qui affectent les maladies cardiaques. Les variables comprennent l’âge, le sexe, le taux de cholestérol, la fréquence cardiaque maximale, etc. Cet exemple est basé sur un ensemble de données publiques qui fournit des informations détaillées sur les maladies cardiaques. Les données originales proviennent de archive.ics.uci.edu.

Les chercheurs veulent créer un arbre de classification qui identifie les prédicteurs importants pour indiquer si un patient souffre d’une maladie cardiaque.

  1. Ouvrez les données d’échantillonnage, MaladieCardiaqueBinaire.MTW.
  2. Choisissez Module d'analyse prédictive > Classification CART®.
  3. Dans la liste déroulante, sélectionnez Réponse binaire.
  4. Dans Réponse, entrez Maladies cardiaques.
  5. Dans Evénement de réponse, sélectionnez Oui pour indiquer qu’une maladie cardiaque a été identifiée chez le patient.
  6. Dans Prédicteurs continus, entrez Âge, Pression artérielle de repos, Cholestérol, Fréquence cardiaque maximale et Vieux pic.
  7. Dans Prédicteurs de catégorie, entrez Sexe, Type de douleur thoracique, Sucre de sang de jeûne, Repos ECG, Exercice Angina, Pente, Principaux navires, et Thal.
  8. Cliquez sur OK.

Interpréter les résultats

Par défaut, Minitab affiche l’arborescence la plus petite avec un coût d’erreur de classification inférieur à 1 erreur standard de l’arbre qui minimise le coût d’erreur de classification. Cet arbre comporte 4 nœuds terminaux.

Avant d’examiner l’arbre, les chercheurs examinent le graphique qui montre le coût de l’erreur de classification à partir de la validation croisée et le nombre de nœuds terminaux. Dans ce graphique, le modèle où le coût de l’erreur de classification diminue se poursuit après l’arbre à 4 nœuds. Dans un cas comme celui-ci, les analystes choisissent d’explorer certains des autres arbres simples qui ont des coûts de classification erronée plus faibles.

Sélectionnez un autre arbre

  1. Dans la sortie, cliquez sur Sélectionner un arbre alternatif
  2. Dans le graphique, sélectionnez l’arborescence à 7 nœuds qui présente le coût d’erreur de classification le plus faible et la meilleure valeur ROC.
  3. Cliquez sur Créer un arbre.

Interpréter les résultats

Dans l’arborescence, les éléments bleus sont destinés au niveau de l’événement. Les éléments rouges sont destinés au niveau non-événement. Dans cette sortie, le niveau de l’événement est « Oui » et indique qu’une personne souffre d’une maladie cardiaque. Le niveau de non-événement est « Non » et indique qu’une personne n’a pas de maladie cardiaque.

Au niveau du nœud racine, il y a 139 comptes de l’événement Oui et 164 comptes de l’événement Non. Le nœud racine est divisé à l’aide de la variable THAL. Lorsque THAL = Normal, allez au nœud gauche (Nœud 2). Lorsque THAL = Fixe ou Réversible, allez au nœud de droite (Nœud 5).
  • Nœud 2 : Il y a 167 cas où THAL était normal. Sur les 167 cas, 38 (22,8 %) sont Oui et 129 (77,2 %) sont Non.
  • Nœud 5 : Il y a 136 cas où THAL était fixe ou réversible. Sur les 136 cas, 101 (74,3%) sont Oui et 35 (25,7%) sont Non.

Le séparateur suivant pour le nœud enfant gauche et le nœud enfant droit est le type de douleur thoracique, où la douleur est évaluée à 1, 2, 3 ou 4.

Explorez d’autres nœuds pour voir quelles variables sont les plus intéressantes. Les nœuds qui sont principalement bleus indiquent une forte proportion du niveau de l’événement. Les nœuds qui sont principalement rouges indiquent une forte proportion du niveau de non-événement.

L’arborescence utilise l’ensemble des données ou l’ensemble des données d’entraînement. Vous pouvez basculer entre les vues de l’arborescence entre la vue détaillée et la vue fractionnée du nœud.

Cet arbre a un coût d’erreur de classification d’environ 0,391.

La variable prédictive la plus importante est le type de douleur thoracique. Si la contribution de la variable prédictive principale, le type de douleur thoracique, est de 100 %, alors la variable importante suivante, les principaux vaisseaux, a une contribution de 86,5 %. Cela signifie que les vaisseaux principaux sont 86,5 % aussi importants que le type de douleur thoracique dans cet arbre de classification.

L’aire sous la courbe ROC pour les données de test est de 0,8200, ce qui indique des performances de classification raisonnables, dans de nombreuses applications. Pour les applications qui nécessitent une plus grande précision de prédiction, vous pouvez essayer d’améliorer les performances avec un modèle Classification TreeNet® ou un Classification Random Forests® modèle.

Dans cet exemple, le graphique de gain montre une forte augmentation au-dessus de la ligne de référence, puis un aplatissement. Dans ce cas, environ 40 % des données représentent environ 70 % des vrais positifs.

Dans cet exemple, le graphique d’élévation montre une augmentation au-dessus de la ligne de référence qui diminue progressivement.

Classification CART® de 7 nœuds: Maladies cardiaques vs Âge; Pression artérielle de repos; Cholestérol; Fréquence cardiaque maximale; Vieux pic; Sexe; Sucre de sang de jeûne; Exercice Angina; Repos ECG; Pente; Thal; Type de douleur thoracique; Principaux navires

Méthode

Probabilités a prioriIdentique pour toutes les classes
Division des nœudsGini
Arbre optimalCoût minimum de mauvais classement
Validation de modèleValidation croisée pour 10 ensemble(s)
Lignes utilisées303

Informations de réponse binaire

VariableClasseDénombrement%
Maladies cardiaquesOui (Événement)13945,87
  Non16454,13
  Total303100,00

Récapitulatif du modèle

Nombre total de prédicteurs13
Prédicteurs importants13
Nombre de nœuds terminaux7
Taille minimale du nœud terminal5
StatistiquesApprentissageTest
Log de vraisemblance de moyenne0,39710,5094
Zone située sous la courbe ROC0,88610,8200
        IC à 95 %(0,5590; 1)(0,7702; 0,8697)
Lift1,93761,8165
Coût de mauvais classement0,29240,3909

Matrice de confusion



Classe prévue
(apprentissage)





Classe prévue (test)
Classe réelleDénombrementOuiNon% correctOuiNon% correct
Oui (Événement)1391172284,21053475,5
Non1642214286,62414085,4
Total30313916485,512917480,9
StatistiquesApprentissage
(%)
Test (%)
Taux de vrai positif (sensibilité ou puissance)84,275,5
Taux de faux positif (erreur de type I)13,414,6
Taux de faux négatif (erreur de type II)15,824,5
Taux de vrai négatif (spécificité)86,685,4

Mauvais classement

Entrée coût
de mauvais
classement
Classe prévue
Classe réelleOuiNon
Oui  1,00
Non1,00 


ApprentissageTest
Classe réelleDénombrementMal classé% erreurCoûtMal classé% erreurCoût
Oui (Événement)1392215,80,15833424,50,2446
Non1642213,40,13412414,60,1463
Total3034414,50,14625819,10,1955