Exemple de Classification CART^®

Une équipe de chercheurs recueille et publie des informations détaillées sur les facteurs qui affectent les maladies cardiaques. Les variables comprennent l’âge, le sexe, le taux de cholestérol, la fréquence cardiaque maximale, etc. Cet exemple est basé sur un ensemble de données publiques qui fournit des informations détaillées sur les maladies cardiaques. Les données originales proviennent de archive.ics.uci.edu.

Les chercheurs veulent créer un arbre de classification qui identifie les prédicteurs importants pour indiquer si un patient souffre d’une maladie cardiaque.

Ouvrez les données d’échantillonnage, MaladieCardiaqueBinaire.MWX.
Choisissez Module d'analyse prédictive > Classification CART®.
Dans la liste déroulante, sélectionnez Réponse binaire.
Dans Réponse, entrez Maladies cardiaques.
Dans Evénement de réponse, sélectionnez Oui pour indiquer qu’une maladie cardiaque a été identifiée chez le patient.
Dans Prédicteurs continus, entrez Âge, Pression artérielle de repos, Cholestérol, Fréquence cardiaque maximale et Vieux pic.
Dans Prédicteurs de catégorie, entrez Sexe, Type de douleur thoracique, Sucre de sang de jeûne, Repos ECG, Exercice Angina, Pente, Principaux navires, et Thal.
Cliquez sur OK.

Interpréter les résultats

Par défaut, Minitab affiche l’arborescence la plus petite avec un coût d’erreur de classification inférieur à 1 erreur standard de l’arbre qui minimise le coût d’erreur de classification. Cet arbre comporte 4 nœuds terminaux.

Avant d’examiner l’arbre, les chercheurs examinent le graphique qui montre le coût de l’erreur de classification à partir de la validation croisée et le nombre de nœuds terminaux. Dans ce graphique, le modèle où le coût de l’erreur de classification diminue se poursuit après l’arbre à 4 nœuds. Dans un cas comme celui-ci, les analystes choisissent d’explorer certains des autres arbres simples qui ont des coûts de classification erronée plus faibles.

Sélectionnez un autre arbre

Dans la sortie, cliquez sur Sélectionner un arbre alternatif
Dans le graphique, sélectionnez l’arborescence à 7 nœuds qui présente le coût d’erreur de classification le plus faible et la meilleure valeur ROC.
Cliquez sur Créer un arbre.

Interpréter les résultats

Dans l’arborescence, les éléments bleus sont destinés au niveau de l’événement. Les éléments rouges sont destinés au niveau non-événement. Dans cette sortie, le niveau de l’événement est « Oui » et indique qu’une personne souffre d’une maladie cardiaque. Le niveau de non-événement est « Non » et indique qu’une personne n’a pas de maladie cardiaque.

Au niveau du nœud racine, il y a 139 comptes de l’événement Oui et 164 comptes de l’événement Non. Le nœud racine est divisé à l’aide de la variable THAL. Lorsque THAL = Normal, allez au nœud gauche (Nœud 2). Lorsque THAL = Fixe ou Réversible, allez au nœud de droite (Nœud 5).

Nœud 2 : Il y a 167 cas où THAL était normal. Sur les 167 cas, 38 (22,8 %) sont Oui et 129 (77,2 %) sont Non.
Nœud 5 : Il y a 136 cas où THAL était fixe ou réversible. Sur les 136 cas, 101 (74,3%) sont Oui et 35 (25,7%) sont Non.

Le séparateur suivant pour le nœud enfant gauche et le nœud enfant droit est le type de douleur thoracique, où la douleur est évaluée à 1, 2, 3 ou 4.

Explorez d’autres nœuds pour voir quelles variables sont les plus intéressantes. Les nœuds qui sont principalement bleus indiquent une forte proportion du niveau de l’événement. Les nœuds qui sont principalement rouges indiquent une forte proportion du niveau de non-événement.

L’arborescence utilise l’ensemble des données ou l’ensemble des données d’entraînement. Vous pouvez basculer entre les vues de l’arborescence entre la vue détaillée et la vue fractionnée du nœud.

Cet arbre a un coût d’erreur de classification d’environ 0,391.

La variable prédictive la plus importante est le type de douleur thoracique. Si la contribution de la variable prédictive principale, le type de douleur thoracique, est de 100 %, alors la variable importante suivante, les principaux vaisseaux, a une contribution de 86,5 %. Cela signifie que les vaisseaux principaux sont 86,5 % aussi importants que le type de douleur thoracique dans cet arbre de classification.

L’aire sous la courbe ROC pour les données de test est de 0,8200, ce qui indique des performances de classification raisonnables, dans de nombreuses applications. Pour les applications qui nécessitent une plus grande précision de prédiction, vous pouvez essayer d’améliorer les performances avec un modèle Classification TreeNet^® ou un Classification Random Forests^® modèle.

Dans cet exemple, le graphique de gain montre une forte augmentation au-dessus de la ligne de référence, puis un aplatissement. Dans ce cas, environ 40 % des données représentent environ 70 % des vrais positifs.

Dans cet exemple, le graphique d’élévation montre une augmentation au-dessus de la ligne de référence qui diminue progressivement.

Classification CART® de 7 nœuds: Maladies cardiaques vs Âge; Pression artérielle de repos; Cholestérol; Fréquence cardiaque maximale; Vieux pic; Sexe; Sucre de sang de jeûne; Exercice Angina; Repos ECG; Pente; Thal; Type de douleur thoracique; Principaux navires

Méthode

Probabilités a priori	Identique pour toutes les classes
Division des nœuds	Gini
Arbre optimal	Coût minimum de mauvais classement
Validation de modèle	Validation croisée pour 10 ensemble(s)
Lignes utilisées	303

Informations de réponse binaire

Variable	Classe	Dénombrement	%
Maladies cardiaques	Oui (Événement)	139	45,87
	Non	164	54,13
	Total	303	100,00

Récapitulatif du modèle

Nombre total de prédicteurs	13
Prédicteurs importants	13
Nombre de nœuds terminaux	7
Taille minimale du nœud terminal	5

Statistiques	Apprentissage	Test
Log de vraisemblance de moyenne	0,3971	0,5094
Zone située sous la courbe ROC	0,8861	0,8200
IC à 95 %	(0,5590; 1)	(0,7702; 0,8697)
Lift	1,9376	1,8165
Coût de mauvais classement	0,2924	0,3909

Matrice de confusion

		Classe prévue (apprentissage)
		Classe prévue (apprentissage)			Classe prévue (test)
Classe réelle	Dénombrement	Oui	Non	% correct	Oui	Non	% correct
Oui (Événement)	139	117	22	84,2	105	34	75,5
Non	164	22	142	86,6	24	140	85,4
Total	303	139	164	85,5	129	174	80,9

Statistiques	Apprentissage (%)	Test (%)
Taux de vrai positif (sensibilité ou puissance)	84,2	75,5
Taux de faux positif (erreur de type I)	13,4	14,6
Taux de faux négatif (erreur de type II)	15,8	24,5
Taux de vrai négatif (spécificité)	86,6	85,4

Mauvais classement

Entrée coût de mauvais classement	Classe prévue
Classe réelle	Oui	Non
Oui		1,00
Non	1,00

		Apprentissage			Test
Classe réelle	Dénombrement	Mal classé	% erreur	Coût	Mal classé	% erreur	Coût
Oui (Événement)	139	22	15,8	0,1583	34	24,5	0,2446
Non	164	22	13,4	0,1341	24	14,6	0,1463
Total	303	44	14,5	0,1462	58	19,1	0,1955

Exemple de Classification CART®

Interpréter les résultats

Sélectionnez un autre arbre

Interpréter les résultats

Méthode

Informations de réponse binaire

Récapitulatif du modèle

Matrice de confusion

Mauvais classement

Exemple de Classification CART^®