Exemple de Ajuster le modèle de Classification TreeNet®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Une équipe de chercheurs recueille et publie des informations détaillées sur les facteurs ayant une influence sur les maladies cardiaques. Les variables incluent l’âge, le sexe, les niveaux de cholestérol, la fréquence cardiaque maximale et plus encore. Cet exemple utilise un ensemble de données publiques comprenant des informations détaillées sur les maladies cardiaques. Les données d’origine proviennent du site archive.ics.uci.edu.

Après une première exploration à l'aide de la fonction Classification CART® pour identifier les prédicteurs importants, les chercheurs utilisent les fonctions Classification TreeNet® et Classification Random Forests® afin de créer des modèles plus avancés à partir du même ensemble de données. Les chercheurs comparent le tableau récapitulatif du modèle et la courbe ROC dans les résultats pour évaluer quel modèle fournit un meilleur résultat de prédiction. Pour consulter les résultats des autres analyses, accédez à Exemple de Classification CART® et à Exemple de Classification Random Forests®.

  1. Ouvrez les données échantillons, MaladieCardiaqueBinaire.MTW.
  2. Sélectionnez Module d'analyse prédictive > Classification TreeNet® > Ajuster le modèle.
  3. Dans la liste déroulante, sélectionnez Réponse binaire.
  4. Dans Réponse, saisissez Maladies cardiaques.
  5. Dans Evénement de réponse, sélectionnez Oui pour indiquer qu'une maladie cardiaque a été détectée chez le patient.
  6. Dans Prédicteurs continus, saisissez Âge, Pression artérielle de repos, Cholestérol, Fréquence cardiaque maximale et Vieux pic.
  7. Dans Prédicteurs de catégorie, saisissez Sexe, Type de douleur thoracique, Sucre de sang de jeûne, Repos ECG, Exercice Angina, Pente, Principaux navires et Thal.
  8. Cliquez sur OK.

Interpréter les résultats

Pour cette analyse, Minitab cultive 300 arbres et le nombre optimal d'arbres est de 298. Du fait que le nombre optimal d'arbres est proche du nombre maximal d'arbres que le modèle développe, les chercheurs répètent l'analyse avec plus d'arbres.

Classification TreeNet®: Maladies car vs Âge; Pression art; Cholestérol; ...

Récapitulatif du modèle Nombre total de prédicteurs 13 Prédicteurs importants 13 Nombre d'arbres développés 300 Nombre optimal d'arbres 298 Statistiques Apprentissage Test Log de vraisemblance de moyenne 0,2556 0,3881 Zone située sous la courbe ROC 0,9796 0,9089 IC à 95 % (0,9664; 0,9929) (0,8759; 0,9419) Lift 2,1799 2,1087 Taux de mauvaise classification 0,0891 0,1617

Exemple avec 500 arbres

  1. Après le tableau récapitulatif du modèle, cliquez sur Affiner les hyperparamètres pour identifier un meilleur modèle.
  2. Dans Nombre d'arbres, saisissez 500.
  3. Cliquez sur Afficher les résultats.

Interpréter les résultats

Pour cette analyse, 500 arbres ont été cultivés et le nombre optimal d'arbres est de 351. Le meilleur modèle utilise un taux d’apprentissage de 0,01, avec une fraction de sous-échantillon de 0,5 et un maximum de 6 nœuds terminaux.

Classification TreeNet®: Maladies car vs Âge; Pression art; Cholestérol; ...

Méthode Critères de sélection du nombre d'arbres optimal Log de vraisemblance maximale Validation de modèle Validation croisée pour 5 ensemble(s) Taux d'apprentissage 0,01 Méthode de sélection de sous-échantillon Complètement aléatoire Fraction de sous-échantillon 0,5 Nombre maximal de nœuds terminaux par arbre 6 Taille minimale du nœud terminal 3 Nombre de prédicteurs sélectionnés pour la partition des nœuds Nombre total de prédicteurs = 13 Lignes utilisées 303
Informations de réponse binaire Variable Classe Dénombrement % Maladies cardiaques Oui (Événement) 139 45,87 Non 164 54,13 Tous 303 100,00

Classification TreeNet® avec réglage des hyperparamètres : Maladies car vs Âge; Pression art; ...

Méthode Critères de sélection du nombre d'arbres optimal Log de vraisemblance maximale Validation de modèle Validation croisée pour 5 ensemble(s) Taux d'apprentissage 0,001; 0,01; 0,1 Fraction de sous-échantillon 0,5; 0,7 Nombre maximal de nœuds terminaux par arbre 6 Taille minimale du nœud terminal 3 Nombre de prédicteurs sélectionnés pour la partition des nœuds Nombre total de prédicteurs = 13 Lignes utilisées 303
Informations de réponse binaire Variable Classe Dénombrement % Maladies cardiaques Oui (Événement) 139 45,87 Non 164 54,13 Tous 303 100,00
Optimisation des hyperparamètres Test
Nombre Log de Zone située Taux de optimal vraisemblance sous la classification Taux Modèle d'arbres de moyenne courbe ROC erronée d'apprentissage 1 500 0,542902 0,902956 0,171749 0,001 2* 351 0,386536 0,908920 0,175027 0,010 3 33 0,396555 0,900782 0,161694 0,100 4 500 0,543292 0,894178 0,178142 0,001 5 374 0,389607 0,906620 0,165082 0,010 6 39 0,393382 0,901399 0,174973 0,100 Nombre maximal de Fraction de nœuds Modèle sous-échantillon terminaux 1 0,5 6 2* 0,5 6 3 0,5 6 4 0,7 6 5 0,7 6 6 0,7 6 * Le modèle optimal présente un log de vraisemblance de moyenne minimal. Les résultats du modèle optimal sont affichés ci-après.

Le diagramme de la moyenne de log de vraisemblance par rapport au nombre d'arbres montre toute la courbe sur le nombre d'arbres développés. La valeur optimale pour les données de test est de 0,3865 lorsque le nombre d'arbres est de 351.

Classification TreeNet®: Maladies car vs Âge; Pression art; Cholestérol; ...

Récapitulatif du modèle Nombre total de prédicteurs 13 Prédicteurs importants 13 Nombre d'arbres développés 500 Nombre optimal d'arbres 351 Statistiques Apprentissage Test Log de vraisemblance de moyenne 0,2341 0,3865 Zone située sous la courbe ROC 0,9825 0,9089 IC à 95 % (0,9706; 0,9945) (0,8757; 0,9421) Lift 2,1799 2,1087 Taux de mauvaise classification 0,0759 0,1750

Le tableau récapitulatif du modèle montre que le log de vraisemblance négatif moyen lorsque le nombre d’arbres est de 351 est d’environ 0,23 pour les données de formation et est d’environ 0,39 pour les données d’essai. Ces statistiques indiquent un modèle comparable à ce que Minitab Random Forests® crée. De plus, les taux de mauvais classement sont similaires.

La courbe d'importance relative des variables trace les prédicteurs dans l'ordre de leur effet sur l'amélioration du modèle lorsqu'un prédicteur est divisé sur la séquence des arbres. La variable de prédiction la plus importante est Thal. Si la contribution de la principale variable de prédiction, c'est-à-dire Thal, est de 100 %, alors la variable importante suivante, Principaux vaisseaux, présente une contribution de 97,8 %. Ainsi, les principaux vaisseaux sont à 97,8 % aussi importants que la variable Thal dans ce modèle de classification.

TreeNet® Classification: Maladies car vs Âge; Pression art; Cholestérol; ...

Matrice de confusion Classe prévue (formation) Classe prévue (test) Classe réelle Dénombrement Oui Non % correct Oui Non % correct Oui (Événement) 139 124 15 89,21 110 29 79,14 Non 164 8 156 95,12 24 140 85,37 Tous 303 132 171 92,41 134 169 82,51 Attribuez une rangée à la classe d'événement si la probabilité d'événement pour la ligne dépasse 0,5.
Formation Statistiques (%) Test (%) Taux de vrai positif (sensibilité ou puissance) 89,21 79,14 Taux de faux positif (erreur de type I) 4,88 14,63 Taux de faux négatif (erreur de type II) 10,79 20,86 Taux de vrai négatif (spécificité) 95,12 85,37

La matrice de confusion montre la capacité du modèle à séparer correctement les classes. Dans cet exemple, la probabilité qu'un événement soit correctement prédit est de 79,14%. La probabilité qu'un non-événement soit correctement prédit est de 85,37 %.

TreeNet® Classification: Maladies car vs Âge; Pression art; Cholestérol; ...

Mauvais classement Formation Test Classe réelle Dénombrement Mal classé % erreur Mal classé % erreur Oui (Événement) 139 15 10,79 29 20,86 Non 164 8 4,88 24 14,63 Tous 303 23 7,59 53 17,49 Attribuez une rangée à la classe d'événement si la probabilité d'événement pour la ligne dépasse 0,5.

Le taux de mauvais classement permet d'indiquer si le modèle prédira avec précision les nouvelles observations. L'erreur de mauvais classement de test est de 20,86 % pour la prédiction des événements. L'erreur de mauvais classement de test est de 14,63% pour la prédiction des non-événements et de 17,49% pour l'ensemble.

L'aire sous la courbe ROC lorsque le nombre d’arbres est de 351 est d’environ 0,98 pour les données d'apprentissage et d’environ 0,91 pour les données de test. Ces données indiquent une amélioration significative par rapport au modèle Classification CART®. Le modèle de la fonction Classification Random Forests® présente une valeur AUROC de test de 0,9028, ces deux méthodes donnent donc des résultats similaires.

Dans cet exemple, la courbe des gains augmente fortement au-dessus de la ligne de référence, puis s'aplatit. Dans ce cas, environ 40 % des données représentent environ 80 % des vrais positifs. Cette différence est le gain supplémentaire dû à l'utilisation du modèle.

Dans cet exemple, la courbe de lift augmente fortement au-dessus de la ligne de référence, puis redescend progressivement.

Utilisez les diagrammes de dépendance partielle pour mieux comprendre comment les variables ou les paires de variables importantes affectent la réponse prévue. Les valeurs de réponse sur l'échelle de la moitié du logarithme correspondent aux prédictions du modèle. Les diagrammes de dépendance partielle indiquent si la relation entre la réponse et une variable est linéaire, monotone ou plus complexe.

Par exemple, dans le diagramme de dépendance partielle du type de douleur thoracique, la probabilité de succès sur la moitié du logarithme varie, puis augmente fortement. Lorsque le type de douleur thoracique est 4, la probabilité de succès sur la moitié du logarithme de l'incidence des maladies cardiaques augmente d'environ −0,04 à 0,03. Cliquez sur Sélectionner plus de prédicteurs à tracer pour produire des diagrammes pour d’autres variables