Exemple de Découvrir le meilleur modèle (réponse binaire)

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Rechercher le meilleur type de modèle

Une équipe de chercheurs recueille et publie des informations détaillées sur les facteurs ayant une influence sur les maladies cardiaques. Les variables incluent l’âge, le sexe, les niveaux de cholestérol, la fréquence cardiaque maximale et plus encore. Cet exemple utilise un ensemble de données publiques comprenant des informations détaillées sur les maladies cardiaques. Les données d’origine proviennent du site archive.ics.uci.edu.

Les chercheurs veulent trouver un modèle qui fait les prédictions les plus précises possibles. Les chercheurs utilisent Découvrir le meilleur modèle (réponse binaire) pour comparer les performances prédictives de 4 types de modèles : régression logistique binaire, TreeNet®, Random Forests® et CART®. Les chercheurs prévoient d’explorer davantage le type de modèle avec les meilleures performances prédictives.

  1. Ouvrez les données échantillons, MaladieCardiaqueBinaireMeilleurModele.MTW.
  2. Sélectionnez Module d'analyse prédictive > Auto-apprentissage par la machine automatisé > Découvrir le meilleur modèle (réponse binaire).
  3. Dans la zone Réponse, saisissez 'Maladies cardiaques'.
  4. Dans la zone Prédicteurs continus, saisissez Âge, 'Pression artérielle de repos', Cholestérol, 'Fréquence cardiaque maximale', et ' Vieux pic'.
  5. Dans Prédicteurs de catégorie, entrezSexe, ' Type de douleur thoracique', 'Sucre de sang de jeûne', 'Repos ECG', 'Exercice Angina', Pente, 'Principaux navires', et Thal.
  6. Cliquez sur OK.

Interpréter des résultats

Le tableau Sélection de modèles compare les performances des différents types de modèles. Le modèle Random Forests® a la valeur minimale de la moyenne –loglikelihood. Les résultats qui suivent concernent le meilleur modèle Random Forests®.

Le diagramme du taux de mauvais classement par rapport au nombre d'arbres montre toute la courbe sur le nombre d'arbres cultivés. Le taux de mauvais classement est d'environ 0,16.

Le tableau récapitulatif du modèle montre que la moyenne du log de vraisemblance négatif est de 0,39.

La courbe d'importance relative des variables trace les prédicteurs dans l'ordre de leur effet sur l'amélioration du modèle lorsqu'un prédicteur est divisé sur la séquence des arbres. La variable de prédiction la plus importante est Thal. Si la contribution de la principale variable de prédiction, c'est-à-dire Thal, est de 100 %, alors la variable importante suivante, Principaux vaisseaux, présente une contribution de 98,9 %. Ainsi, les principaux vaisseaux sont à 98,9 % aussi importants que la variable Thal dans ce modèle de classification.

La matrice de confusion montre la capacité du modèle à séparer correctement les classes. Dans cet exemple, la probabilité qu'un événement soit correctement prédit est de 87 %. La probabilité qu'un non-événement soit correctement prédit est de 81 %.

Le taux de mauvais classement permet d'indiquer si le modèle prédira avec précision les nouvelles observations. L'erreur de mauvais classement de test est de 13 % pour la prédiction des événements. L'erreur de mauvais classement est de 13 % pour la prédiction des événements. Dans l’ensemble, l’erreur de classification erronée pour les données de test est d’environ 16 %.

L’aire sous la courbe ROC pour le modèle Random Forests® est d’environ 0,90 pour les données hors sac.

Découvrir le meilleur modèle (réponse binaire): Maladies car vs Âge; Pression art; ...

Méthode Ajustez un modèle de régression logistique pas à pas avec des termes linéaires et des termes d'ordre 2. Ajustez 6 modèles de classification TreeNet®. Ajustez 3 modèle(s) de classification Random Forests® avec un effectif d'échantillon bootstrap identique à la taille des données d'apprentissage de 303. Ajuster un modèle de classification CART® optimal. Sélectionnez le modèle avec une valeur de log de vraisemblance maximale d'après la validation croisée sur 5 partitions. Nombre total de lignes : 303 Lignes utilisées pour le modèle de régression logistique : 303 Lignes utilisées pour les modèles basés sur des arbres : 303
Informations de réponse binaire Variable Classe Dénombrement % Maladies cardiaques 1 (Événement) 165 54,46 0 138 45,54 Tous 303 100,00

Sélection du modèle

Zone située Log de sous la Taux de Meilleur modèle pour vraisemblance courbe classification le type de moyenne ROC erronée Random Forests®* 0,3904 0,9048 0,1584 TreeNet® 0,3907 0,9032 0,1520 Régression logistique 0,4671 0,9142 0,1518 CART® 1,8072 0,7991 0,2080 *Meilleur modèle avec un -log de vraisemblance moyen minimal, pour tous les types de modèles. Suivi des résultats pour le meilleur modèle.
Hyperparamètres pour le meilleur modèle Random Forests® Nombre d'échantillons bootstrap 300 Effectif d'échantillon Identique à la taille des données d'apprentissage de 303 Nombre de prédicteurs sélectionnés pour la partition des nœuds Racine carrée du nombre total de prédicteurs = 3 Taille minimale du nœud interne 8

Graphique de taux de classification erronée vs nombre d'arbres

Récapitulatif du modèle Nombre total de prédicteurs 13 Prédicteurs importants 13 Statistiques Out-of-Bag Log de vraisemblance de moyenne 0,3904 Zone située sous la courbe ROC 0,9048 IC à 95 % (0,8706; 0,9389) Lift 1,7758 Taux de mauvaise classification 0,1584
Matrice de confusion Catégorie prévue (Out-of-Bag) Classe réelle Dénombrement 1 0 % correct 1 (Événement) 165 143 22 86,67 0 138 26 112 81,16 Tous 303 169 134 84,16 Out-of-Bag Statistiques (%) Taux de vrai positif (sensibilité ou puissance) 86,67 Taux de faux positif (erreur de type I) 18,84 Taux de faux négatif (erreur de type II) 13,33 Taux de vrai négatif (spécificité) 81,16
Mauvais classement Out-of-Bag Classe réelle Dénombrement Mal classé % erreur 1 (Événement) 165 22 13,33 0 138 26 18,84 Tous 303 48 15,84

Fonction d'efficacité du récepteur (courbe ROC)

Courbe des gains

Courbe de lift

Sélectionner un autre modèle

Les chercheurs peuvent examiner les résultats d’autres modèles à partir de la recherche du meilleur modèle. Pour un modèle TreeNet®, vous pouvez sélectionner parmi un modèle qui faisait partie de la recherche ou spécifier des hyperparamètres pour un autre modèle.

  1. Après le tableau récapitulatif du modèle, cliquez sur Sélectionner un autre modèle.
  2. Dans Type de modèle, sélectionnez TreeNet®.
  3. Dans Sélectionner un modèle existant, choisissez le troisième modèle, qui a la meilleure valeur de la moyenne minimale –loglikelihood.
  4. Cliquez sur Afficher les résultats.

Interpréter des résultats

Pour cette analyse, Minitab cultive 300 arbres et le nombre optimal d'arbres est de 46. Le modèle utilise un taux d’apprentissage de 0,1 et une fraction de sous-échantillon de 0,5. Le nombre maximal de nœuds terminaux par arbre est de 6.

Le diagramme de la moyenne de log de vraisemblance par rapport au nombre d'arbres montre toute la courbe sur le nombre d'arbres développés. La valeur optimale pour les données de test est de 0,3907 lorsque le nombre d'arbres est de 46.

Classification TreeNet®: Maladies car vs Âge; Pression art; Cholestérol; ...

Récapitulatif du modèle Nombre total de prédicteurs 13 Prédicteurs importants 13 Nombre d'arbres développés 300 Nombre optimal d'arbres 46 Statistiques Apprentissage Test Log de vraisemblance de moyenne 0,2088 0,3907 Zone située sous la courbe ROC 0,9842 0,9032 IC à 95 % (0,9721; 0,9964) (0,8683; 0,9381) Lift 1,8364 1,7744 Taux de mauvaise classification 0,0726 0,1520

Lorsque le nombre d’arbres est de 46, le tableau récapitulatif du modèle indique que la probabilité moyenne de logarithme négatif est d’environ 0,21 pour les données d’entraînement et d’environ 0,39 pour les données de test.

La courbe d'importance relative des variables trace les prédicteurs dans l'ordre de leur effet sur l'amélioration du modèle lorsqu'un prédicteur est divisé sur la séquence des arbres. La variable de prédiction la plus importante est Type de douleur thoracique. Si la contribution de la principale variable de prédiction, c’est-à-dire Type de douleur thoracique, est de 100 %, alors la variable importante suivante, Principaux vaisseaux, présente une contribution de 95,8 %. Ainsi, les principaux vaisseaux sont à 95,8 % aussi importants que le type de douleur thoracique dans ce modèle.

Classification TreeNet®: Maladies car vs Âge; Pression art; Cholestérol; ...

Matrice de confusion Classe prévue (apprentissage) Classe prévue (test) Classe réelle Dénombrement 1 0 % correct 1 0 % correct 1 (Événement) 165 156 9 94,55 147 18 89,09 0 138 13 125 90,58 28 110 79,71 Tous 303 169 134 92,74 175 128 84,82 Attribuez une rangée à la classe d'événement si la probabilité d'événement pour la ligne dépasse 0,5.
Apprentissage Statistiques (%) Test (%) Taux de vrai positif (sensibilité ou puissance) 94,55 89,09 Taux de faux positif (erreur de type I) 9,42 20,29 Taux de faux négatif (erreur de type II) 5,45 10,91 Taux de vrai négatif (spécificité) 90,58 79,71

La matrice de confusion montre la capacité du modèle à séparer correctement les classes. Dans cet exemple, la probabilité qu'un événement soit correctement prédit est de 89 %. La probabilité qu'un non-événement soit correctement prédit est de 80 %.

Classification TreeNet®: Maladies car vs Âge; Pression art; Cholestérol; ...

Mauvais classement Apprentissage Test Classe réelle Dénombrement Mal classé % erreur Mal classé % erreur 1 (Événement) 165 9 5,45 18 10,91 0 138 13 9,42 28 20,29 Tous 303 22 7,26 46 15,18 Attribuez une rangée à la classe d'événement si la probabilité d'événement pour la ligne dépasse 0,5.

Le taux de mauvais classement permet d'indiquer si le modèle prédira avec précision les nouvelles observations. L'erreur de mauvais classement de test est de 11 % pour la prédiction des événements. L'erreur de mauvais classement est de 20 % pour la prédiction des événements. Dans l’ensemble, l’erreur de classification erronée pour les données de test est d’environ 15%.

L'aire sous la courbe ROC lorsque le nombre d’arbres est de 46 est d’environ 0,98 pour les données d'apprentissage et d’environ 0,90 pour les données de test.

Dans cet exemple, la courbe des gains augmente fortement au-dessus de la ligne de référence, puis s'aplatit. Dans ce cas, environ 60 % des données représentent environ 90 % des vrais positifs. Cette différence est le gain supplémentaire dû à l'utilisation du modèle.

Dans cet exemple, le graphique d’élévation montre une forte augmentation au-dessus de la ligne de référence qui commence à diminuer plus rapidement après environ 50% du nombre total.

Utilisez les diagrammes de dépendance partielle pour mieux comprendre comment les variables ou les paires de variables importantes affectent la réponse prévue. Les valeurs de réponse ajustées sont sur l’échelle 1/2 logarithme. Les diagrammes de dépendance partielle indiquent si la relation entre la réponse et une variable est linéaire, monotone ou plus complexe.

Par exemple, dans le diagramme de dépendance partielle du type de douleur thoracique, la cote 1/2 log est la plus élevée à la valeur de 3. Cliquez sur Sélectionner plus de prédicteurs à tracer pour produire des diagrammes pour d’autres variables