Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.
Une équipe de chercheurs recueille et publie des informations détaillées sur les facteurs ayant une influence sur les maladies cardiaques. Les variables incluent l’âge, le sexe, les niveaux de cholestérol, la fréquence cardiaque maximale et plus encore. Cet exemple utilise un ensemble de données publiques comprenant des informations détaillées sur les maladies cardiaques. Les données d’origine proviennent du site archive.ics.uci.edu.
Après une première exploration à l'aide de la fonction Classification CART® pour identifier les prédicteurs importants, les chercheurs utilisent les fonctions Classification TreeNet® et Classification Random Forests® afin de créer des modèles plus avancés à partir du même ensemble de données. Les chercheurs comparent le tableau récapitulatif du modèle et la courbe ROC dans les résultats pour évaluer quel modèle fournit un meilleur résultat de prédiction. Pour consulter les résultats des autres analyses, accédez à Exemple de Classification CART® et à Exemple de Classification Random Forests®.
Pour cette analyse, Minitab cultive 300 arbres et le nombre optimal d'arbres est de 298. Du fait que le nombre optimal d'arbres est proche du nombre maximal d'arbres que le modèle développe, les chercheurs répètent l'analyse avec plus d'arbres.
Nombre total de prédicteurs | 13 |
---|---|
Prédicteurs importants | 13 |
Nombre d'arbres développés | 300 |
Nombre optimal d'arbres | 298 |
Statistiques | Apprentissage | Test |
---|---|---|
Log de vraisemblance de moyenne | 0,2556 | 0,3881 |
Zone située sous la courbe ROC | 0,9796 | 0,9089 |
IC à 95 % | (0,9664; 0,9929) | (0,8759; 0,9419) |
Lift | 2,1799 | 2,1087 |
Taux de mauvaise classification | 0,0891 | 0,1617 |
Pour cette analyse, 500 arbres ont été cultivés et le nombre optimal d'arbres est de 351. Le meilleur modèle utilise un taux d’apprentissage de 0,01, avec une fraction de sous-échantillon de 0,5 et un maximum de 6 nœuds terminaux.
Critères de sélection du nombre d'arbres optimal | Log de vraisemblance maximale |
---|---|
Validation de modèle | Validation croisée pour 5 ensemble(s) |
Taux d'apprentissage | 0,01 |
Méthode de sélection de sous-échantillon | Complètement aléatoire |
Fraction de sous-échantillon | 0,5 |
Nombre maximal de nœuds terminaux par arbre | 6 |
Taille minimale du nœud terminal | 3 |
Nombre de prédicteurs sélectionnés pour la partition des nœuds | Nombre total de prédicteurs = 13 |
Lignes utilisées | 303 |
Variable | Classe | Dénombrement | % |
---|---|---|---|
Maladies cardiaques | Oui (Événement) | 139 | 45,87 |
Non | 164 | 54,13 | |
Tous | 303 | 100,00 |
Critères de sélection du nombre d'arbres optimal | Log de vraisemblance maximale |
---|---|
Validation de modèle | Validation croisée pour 5 ensemble(s) |
Taux d'apprentissage | 0,001; 0,01; 0,1 |
Fraction de sous-échantillon | 0,5; 0,7 |
Nombre maximal de nœuds terminaux par arbre | 6 |
Taille minimale du nœud terminal | 3 |
Nombre de prédicteurs sélectionnés pour la partition des nœuds | Nombre total de prédicteurs = 13 |
Lignes utilisées | 303 |
Variable | Classe | Dénombrement | % |
---|---|---|---|
Maladies cardiaques | Oui (Événement) | 139 | 45,87 |
Non | 164 | 54,13 | |
Tous | 303 | 100,00 |
Modèle | Nombre optimal d'arbres | Log de vraisemblance de moyenne | Zone située sous la courbe ROC | Taux de classification erronée | Taux d'apprentissage |
---|---|---|---|---|---|
1 | 500 | 0,542902 | 0,902956 | 0,171749 | 0,001 |
2* | 351 | 0,386536 | 0,908920 | 0,175027 | 0,010 |
3 | 33 | 0,396555 | 0,900782 | 0,161694 | 0,100 |
4 | 500 | 0,543292 | 0,894178 | 0,178142 | 0,001 |
5 | 374 | 0,389607 | 0,906620 | 0,165082 | 0,010 |
6 | 39 | 0,393382 | 0,901399 | 0,174973 | 0,100 |
Modèle | Fraction de sous-échantillon | Nombre maximal de nœuds terminaux |
---|---|---|
1 | 0,5 | 6 |
2* | 0,5 | 6 |
3 | 0,5 | 6 |
4 | 0,7 | 6 |
5 | 0,7 | 6 |
6 | 0,7 | 6 |
Nombre total de prédicteurs | 13 |
---|---|
Prédicteurs importants | 13 |
Nombre d'arbres développés | 500 |
Nombre optimal d'arbres | 351 |
Statistiques | Apprentissage | Test |
---|---|---|
Log de vraisemblance de moyenne | 0,2341 | 0,3865 |
Zone située sous la courbe ROC | 0,9825 | 0,9089 |
IC à 95 % | (0,9706; 0,9945) | (0,8757; 0,9421) |
Lift | 2,1799 | 2,1087 |
Taux de mauvaise classification | 0,0759 | 0,1750 |
Nombre total de prédicteurs | 13 |
---|---|
Prédicteurs importants | 13 |
Statistiques | Out-of-Bag |
---|---|
Log de vraisemblance de moyenne | 0,4004 |
Zone située sous la courbe ROC | 0,9028 |
IC à 95 % | (0,8693; 0,9363) |
Lift | 2,1079 |
Taux de mauvaise classification | 0,1848 |
Le tableau récapitulatif du modèle montre que le log de vraisemblance négatif moyen lorsque le nombre d’arbres est de 351 est d’environ 0,23 pour les données de formation et est d’environ 0,39 pour les données d’essai. Ces statistiques indiquent un modèle comparable à ce que Minitab Random Forests® crée. De plus, les taux de mauvais classement sont similaires.
Classe prévue (apprentissage) | |||||||
---|---|---|---|---|---|---|---|
Classe prévue (test) | |||||||
Classe réelle | Dénombrement | Oui | Non | % correct | Oui | Non | % correct |
Oui (Événement) | 139 | 124 | 15 | 89,21 | 110 | 29 | 79,14 |
Non | 164 | 8 | 156 | 95,12 | 24 | 140 | 85,37 |
Tous | 303 | 132 | 171 | 92,41 | 134 | 169 | 82,51 |
Statistiques | Apprentissage (%) | Test (%) |
---|---|---|
Taux de vrai positif (sensibilité ou puissance) | 89,21 | 79,14 |
Taux de faux positif (erreur de type I) | 4,88 | 14,63 |
Taux de faux négatif (erreur de type II) | 10,79 | 20,86 |
Taux de vrai négatif (spécificité) | 95,12 | 85,37 |
La matrice de confusion montre la capacité du modèle à séparer correctement les classes. Dans cet exemple, la probabilité qu'un événement soit correctement prédit est de 79,14%. La probabilité qu'un non-événement soit correctement prédit est de 85,37 %.
Apprentissage | Test | ||||
---|---|---|---|---|---|
Classe réelle | Dénombrement | Mal classé | % erreur | Mal classé | % erreur |
Oui (Événement) | 139 | 15 | 10,79 | 29 | 20,86 |
Non | 164 | 8 | 4,88 | 24 | 14,63 |
Tous | 303 | 23 | 7,59 | 53 | 17,49 |
Le taux de mauvais classement permet d'indiquer si le modèle prédira avec précision les nouvelles observations. L'erreur de mauvais classement de test est de 20,86 % pour la prédiction des événements. L'erreur de mauvais classement de test est de 14,63% pour la prédiction des non-événements et de 17,49% pour l'ensemble.