Exemple de création d'arbres avec la fonction CART® Classification

Une équipe de chercheurs recueille et publie des informations détaillées sur les facteurs ayant une influence sur les maladies cardiaques. Les variables incluent l’âge, le sexe, les niveaux de cholestérol, la fréquence cardiaque maximale et plus encore. Cet exemple utilise un ensemble de données publiques comprenant des informations détaillées sur les maladies cardiaques. Les données d’origine proviennent du site archive.ics.uci.edu.

Les chercheurs souhaitent créer un arbre de classification qui identifie les prédicteurs importants pour indiquer si un patient souffre d’une maladie cardiaque.

  1. Ouvrez les données échantillons, MaladieCardiaqueBinaire.MTW.
  2. Sélectionnez Stat > Analyse prédictive > CART® Classification.
  3. Dans la liste déroulante, sélectionnez Réponse binaire.
  4. Dans la zone Réponse, saisissez Maladies cardiaques.
  5. Dans la zone Evénement de réponse, sélectionnez Oui pour indiquer qu'une maladie cardiaque a été détectée chez le patient.
  6. Dans la zone Prédicteurs continus, saisissez Âge, Pression artérielle de repos, Cholestérol, Fréquence cardiaque maximale et Vieux pic.
  7. Dans la zone Prédicteurs de catégorie, saisissez Sexe, Type de douleur thoracique, Sucre de sang de jeûne, Repos ECG, Exercice Angina, Pente, Principaux navires et Thal.
  8. Cliquez sur OK.

Interpréter des résultats

Par défaut, Minitab affiche le plus petit arbre dont le coût de mauvais classement se situe à moins d’1 erreur type de l’arbre produisant le coût de mauvais classement le plus faible. Cet arbre comprend 4 nœuds terminaux.

Avant d’examiner l’arbre, les chercheurs consultent le diagramme détaillant le coût de mauvais classement déterminé par la validation croisée et le nombre de nœuds terminaux. Dans ce diagramme, le modèle dans lequel le coût de mauvais classement diminue se poursuit après l’arbre à 4 nœuds. Dans un cas comme celui-ci, les analystes choisissent d'étudier certains des autres arbres simples avec des coûts de mauvais classement plus faibles.

Sélectionner un arbre alternatif

  1. Dans la sortie, cliquez sur Sélectionner un arbre alternatif.
  2. Dans le diagramme, sélectionnez l’arbre à 7 nœuds avec le coût de mauvais classement le plus faible et la meilleure valeur ROC.
  3. Cliquez sur Créer un arbre.

Interpréter des résultats

Dans l’arborescence, les éléments bleus correspondent au niveau d’événement. Les éléments rouges correspondent au niveau du non-événement. Dans cette sortie, le niveau d’événement est "Oui" et indique que cette personne souffre d’une maladie cardiaque. Le niveau de non-événement est "Non" et indique que cette personne ne souffre pas de maladie cardiaque.

Au nœud racine, 139 événements Oui et 164 événements Non ont été dénombrés. Le nœud racine est divisé à l’aide de la variable THAL. Lorsque THAL = Normal, allez au nœud gauche (Nœud 2). Lorsque THAL = Fixe ou Réversible, allez au nœud droit (Nœud 5).
  • Nœud 2 : la variable THAL avait la valeur Normal 167 fois. Sur ces 167 cas, 38 (22,8 %) appartenaient à l’événement Oui et 129 (77,2 %) à l’événement Non.
  • Nœud 5 : la variable THAL avait la valeur sur Fixe ou Réversible 136 fois. Sur ces 136 cas, 101 (74,3%) appartenaient à l’événement Oui et 35 (25,7%) à l’événement Non.

La division suivante pour le nœud enfant gauche et le nœud enfant droit est Type de douleur thoracique, avec une douleur évaluée sur une échelle allant de 1 à 4.

Explorez d'autres nœuds pour déterminer quelles variables sont les plus intéressantes. Les nœuds qui sont majoritairement bleus indiquent une forte proportion du niveau d’événement. Les nœuds qui sont majoritairement rouges indiquent une forte proportion du niveau de non-événement.

L’arborescence utilise l’ensemble de données ou l’ensemble de données d’apprentissage. Vous pouvez basculer entre la vue détaillée et la vue de partition de nœud de l’arbre.

Cet arbre a un coût de mauvais classement d’environ 0,391.

La variable de prédiction la plus importante est Type de douleur thoracique. Si la contribution de la principale variable de prédiction, c’est-à-dire Type de douleur thoracique, est de 100 %, alors la variable importante suivante, Principaux vaisseaux, présente une contribution de 86,5 %. Ainsi, les principaux vaisseaux sont à 86,5 % aussi importants que le type de douleur thoracique dans l’arbre de classification choisi.

La zone sous la courbe ROC pour les données de test est de 0,8200, ce qui indique un rendement de classement raisonnable, dans la plupart des applications.

CART® classification de 7 nœuds: Maladies cardiaques par rapport à Âge; Pression artérielle de repos; Cholestérol; Fréquence cardiaque maximale; Vieux pic; Sexe; Sucre de sang de jeûne; Exercice Angina; Repos ECG; Pente; Thal; Type de douleur thoracique; Principaux navires

Méthode Probabilités a priori Identique pour toutes les classes Division des nœuds Gini Arbre optimal Coût minimum de mauvais classement Validation de modèle Validation croisée pour 10 ensemble(s) Lignes utilisées 303
Informations de réponse binaire Variable Classe Dénombrement % Maladies cardiaques Oui (Événement) 139 45,9 Non 164 54,1 Total 303 100,0
Récapitulatif du modèle Nombre total de prédicteurs 13 Prédicteurs importants 13 Nombre de nœuds terminaux 7 Taille minimale du nœud terminal 5 Statistiques Formation Test Log de vraisemblance de moyenne 0,3971 0,5094 Zone située sous la courbe ROC 0,8861 0,8200 IC à 95 % (0,5590; 1) (0,7702; 0,8697) Lift 1,9376 1,8165 Coût de mauvais classement 0,2924 0,3909
Matrice de confusion Classe prévue (formation) Classe prévue (test) Classe réelle Dénombrement Oui Non % correct Oui Non % correct Oui (Événement) 139 117 22 84,2 105 34 75,5 Non 164 22 142 86,6 24 140 85,4 Total 303 139 164 85,5 129 174 80,9 Formation Statistiques (%) Test (%) Taux de vrai positif (sensibilité ou puissance) 84,2 75,5 Taux de faux positif (erreur de type I) 13,4 14,6 Taux de faux négatif (erreur de type II) 15,8 24,5 Taux de vrai négatif (spécificité) 86,6 85,4
Mauvais classement Entrée coût de mauvais classement Classe prévue Classe réelle Oui Non Oui 1,00 Non 1,00 Formation Test Classe réelle Dénombrement Mal classé % erreur Coût Mal classé Oui (Événement) 139 22 15,8 0,1583 34 Non 164 22 13,4 0,1341 24 Total 303 44 14,5 0,1462 58
Classe réelle % erreur Coût Oui (Événement) 24,5 0,2446 Non 14,6 0,1463 Total 19,1 0,1955
En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique