Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.
Une équipe de chercheurs recueille et publie des informations détaillées sur les facteurs ayant une influence sur les maladies cardiaques. Les variables incluent l’âge, le sexe, les niveaux de cholestérol, la fréquence cardiaque maximale et plus encore. Cet exemple utilise un ensemble de données publiques comprenant des informations détaillées sur les maladies cardiaques. Les données d’origine proviennent du site archive.ics.uci.edu.
Les chercheurs veulent trouver un modèle qui fait les prédictions les plus précises possibles. Les chercheurs utilisent Découvrir le meilleur modèle (réponse binaire) pour comparer les performances prédictives de 4 types de modèles : régression logistique binaire, TreeNet®, Random Forests® et CART®. Les chercheurs prévoient d’explorer davantage le type de modèle avec les meilleures performances prédictives.
Le tableau Sélection de modèles compare les performances des différents types de modèles. Le modèle Random Forests® a la valeur minimale de la moyenne –loglikelihood. Les résultats qui suivent concernent le meilleur modèle Random Forests®.
Le diagramme du taux de mauvais classement par rapport au nombre d'arbres montre toute la courbe sur le nombre d'arbres cultivés. Le taux de mauvais classement est d'environ 0,16.
Le tableau récapitulatif du modèle montre que la moyenne du log de vraisemblance négatif est de 0,39.
La courbe d'importance relative des variables trace les prédicteurs dans l'ordre de leur effet sur l'amélioration du modèle lorsqu'un prédicteur est divisé sur la séquence des arbres. La variable de prédiction la plus importante est Thal. Si la contribution de la principale variable de prédiction, c'est-à-dire Thal, est de 100 %, alors la variable importante suivante, Principaux vaisseaux, présente une contribution de 98,9 %. Ainsi, les principaux vaisseaux sont à 98,9 % aussi importants que la variable Thal dans ce modèle de classification.
La matrice de confusion montre la capacité du modèle à séparer correctement les classes. Dans cet exemple, la probabilité qu'un événement soit correctement prédit est de 87 %. La probabilité qu'un non-événement soit correctement prédit est de 81 %.
Le taux de mauvais classement permet d'indiquer si le modèle prédira avec précision les nouvelles observations. L'erreur de mauvais classement de test est de 13 % pour la prédiction des événements. L'erreur de mauvais classement est de 13 % pour la prédiction des événements. Dans l’ensemble, l’erreur de classification erronée pour les données de test est d’environ 16 %.
L’aire sous la courbe ROC pour le modèle Random Forests® est d’environ 0,90 pour les données hors sac.
Les chercheurs peuvent examiner les résultats d’autres modèles à partir de la recherche du meilleur modèle. Pour un modèle TreeNet®, vous pouvez sélectionner parmi un modèle qui faisait partie de la recherche ou spécifier des hyperparamètres pour un autre modèle.
Pour cette analyse, Minitab cultive 300 arbres et le nombre optimal d'arbres est de 46. Le modèle utilise un taux d’apprentissage de 0,1 et une fraction de sous-échantillon de 0,5. Le nombre maximal de nœuds terminaux par arbre est de 6.