Une équipe de chercheurs recueille et publie des informations détaillées sur les facteurs qui affectent les maladies cardiaques. Les variables comprennent l’âge, le sexe, le taux de cholestérol, la fréquence cardiaque maximale, etc. Cet exemple est basé sur un ensemble de données publiques qui fournit des informations détaillées sur les maladies cardiaques. Les données originales proviennent de archive.ics.uci.edu.
Les chercheurs veulent créer un arbre de classification qui identifie les prédicteurs importants pour indiquer si un patient souffre d’une maladie cardiaque.
Par défaut, Minitab affiche l’arborescence la plus petite avec un coût d’erreur de classification inférieur à 1 erreur standard de l’arbre qui minimise le coût d’erreur de classification. Cet arbre comporte 4 nœuds terminaux.
Dans l’arborescence, les éléments bleus sont destinés au niveau de l’événement. Les éléments rouges sont destinés au niveau non-événement. Dans cette sortie, le niveau de l’événement est « Oui » et indique qu’une personne souffre d’une maladie cardiaque. Le niveau de non-événement est « Non » et indique qu’une personne n’a pas de maladie cardiaque.
Le séparateur suivant pour le nœud enfant gauche et le nœud enfant droit est le type de douleur thoracique, où la douleur est évaluée à 1, 2, 3 ou 4.
Explorez d’autres nœuds pour voir quelles variables sont les plus intéressantes. Les nœuds qui sont principalement bleus indiquent une forte proportion du niveau de l’événement. Les nœuds qui sont principalement rouges indiquent une forte proportion du niveau de non-événement.
L’arborescence utilise l’ensemble des données ou l’ensemble des données d’entraînement. Vous pouvez basculer entre les vues de l’arborescence entre la vue détaillée et la vue fractionnée du nœud.
Cet arbre a un coût d’erreur de classification d’environ 0,391.
La variable prédictive la plus importante est le type de douleur thoracique. Si la contribution de la variable prédictive principale, le type de douleur thoracique, est de 100 %, alors la variable importante suivante, les principaux vaisseaux, a une contribution de 86,5 %. Cela signifie que les vaisseaux principaux sont 86,5 % aussi importants que le type de douleur thoracique dans cet arbre de classification.
L’aire sous la courbe ROC pour les données de test est de 0,8200, ce qui indique des performances de classification raisonnables, dans de nombreuses applications. Pour les applications qui nécessitent une plus grande précision de prédiction, vous pouvez essayer d’améliorer les performances avec un modèle Classification TreeNet® ou un Classification Random Forests® modèle.
Dans cet exemple, le graphique de gain montre une forte augmentation au-dessus de la ligne de référence, puis un aplatissement. Dans ce cas, environ 40 % des données représentent environ 70 % des vrais positifs.
Dans cet exemple, le graphique d’élévation montre une augmentation au-dessus de la ligne de référence qui diminue progressivement.
Probabilités a priori | Identique pour toutes les classes |
---|---|
Division des nœuds | Gini |
Arbre optimal | Coût minimum de mauvais classement |
Validation de modèle | Validation croisée pour 10 ensemble(s) |
Lignes utilisées | 303 |
Variable | Classe | Dénombrement | % |
---|---|---|---|
Maladies cardiaques | Oui (Événement) | 139 | 45,87 |
Non | 164 | 54,13 | |
Total | 303 | 100,00 |
Nombre total de prédicteurs | 13 |
---|---|
Prédicteurs importants | 13 |
Nombre de nœuds terminaux | 7 |
Taille minimale du nœud terminal | 5 |
Statistiques | Apprentissage | Test |
---|---|---|
Log de vraisemblance de moyenne | 0,3971 | 0,5094 |
Zone située sous la courbe ROC | 0,8861 | 0,8200 |
IC à 95 % | (0,5590; 1) | (0,7702; 0,8697) |
Lift | 1,9376 | 1,8165 |
Coût de mauvais classement | 0,2924 | 0,3909 |
Classe prévue (apprentissage) | |||||||
---|---|---|---|---|---|---|---|
Classe prévue (test) | |||||||
Classe réelle | Dénombrement | Oui | Non | % correct | Oui | Non | % correct |
Oui (Événement) | 139 | 117 | 22 | 84,2 | 105 | 34 | 75,5 |
Non | 164 | 22 | 142 | 86,6 | 24 | 140 | 85,4 |
Total | 303 | 139 | 164 | 85,5 | 129 | 174 | 80,9 |
Statistiques | Apprentissage (%) | Test (%) |
---|---|---|
Taux de vrai positif (sensibilité ou puissance) | 84,2 | 75,5 |
Taux de faux positif (erreur de type I) | 13,4 | 14,6 |
Taux de faux négatif (erreur de type II) | 15,8 | 24,5 |
Taux de vrai négatif (spécificité) | 86,6 | 85,4 |
Entrée coût de mauvais classement | Classe prévue | |
---|---|---|
Classe réelle | Oui | Non |
Oui | 1,00 | |
Non | 1,00 |
Apprentissage | Test | ||||||
---|---|---|---|---|---|---|---|
Classe réelle | Dénombrement | Mal classé | % erreur | Coût | Mal classé | % erreur | Coût |
Oui (Événement) | 139 | 22 | 15,8 | 0,1583 | 34 | 24,5 | 0,2446 |
Non | 164 | 22 | 13,4 | 0,1341 | 24 | 14,6 | 0,1463 |
Total | 303 | 44 | 14,5 | 0,1462 | 58 | 19,1 | 0,1955 |