Exemple de Classification Random Forests^®

Remarque

Cette commande est disponible avec la commande Module d'analyse prédictive. Cliquez ici pour plus d’informations sur la façon d’activer le module.

Une équipe de chercheurs recueille et publie des informations détaillées sur les facteurs qui affectent les maladies cardiaques. Les variables comprennent l’âge, le sexe, le taux de cholestérol, la fréquence cardiaque maximale, etc. Cet exemple est basé sur un ensemble de données publiques qui fournit des informations détaillées sur les maladies cardiaques. Les données originales proviennent de archive.ics.uci.edu.

Après une exploration initiale pour Classification CART^® identifier les prédicteurs importants, les chercheurs utilisent les deux Classification TreeNet^® et Classification Random Forests^® pour créer des modèles plus intensifs à partir du même ensemble de données. Les chercheurs comparent le tableau récapitulatif du modèle et le graphique ROC à partir des résultats pour évaluer quel modèle fournit un meilleur résultat de prédiction. Pour obtenir les résultats des autres analyses, reportez-vous sur Exemple de Ajuster le modèle avec Classification TreeNet® et Exemple de Classification CART®.

Ouvrez les données d’échantillonnage, MaladieCardiaqueBinaire.MWX.
Choisissez Module d'analyse prédictive > Classification Random Forests®.
Dans la liste déroulante, sélectionnez Réponse binaire.
Dans Réponse, entrez 'Maladies cardiaques'.
Dans Evénement de réponse, sélectionnez Oui pour indiquer qu’une maladie cardiaque a été identifiée chez le patient.
Dans Prédicteurs continus, entrez Âge, 'Pression artérielle de repos', Cholestérol, 'Fréquence cardiaque maximale' et 'Vieux pic'.
Dans Prédicteurs de catégorie, entrez Sexe, 'Type de douleur thoracique', 'Sucre de sang de jeûne', 'Repos ECG', '', 'Exercice Angina', Pente 'Principaux navires', et Thal.
Cliquez sur OK.

Interpréter des résultats

Pour cette analyse, le nombre d'observations est de 303. Chacun des 300 échantillons bootstrap utilise les 303 observations pour créer un arbre. Les données incluent une division correcte des non-événements et des événements.

Méthode

Validation de modèle	Validation avec données out-of-bag
Nombre d'échantillons bootstrap	300
Effectif d'échantillon	Identique à la taille des données d'apprentissage de 303
Nombre de prédicteurs sélectionnés pour la partition des nœuds	Racine carrée du nombre total de prédicteurs = 3
Taille minimale du nœud interne	2
Lignes utilisées	303

Informations de réponse binaire

Variable	Classe	Dénombrement	%
Maladies cardiaques	Oui (Événement)	139	45,87
	Non	164	54,13
	Tous	303	100,00

Le graphique Taux d’erreur de classification en fonction du nombre d’arbres montre la courbe entière sur le nombre d’arbres cultivés. Le taux d’erreurs de classification est d’environ 0,18.

Récapitulatif du modèle

Nombre total de prédicteurs	13
Prédicteurs importants	13

Statistiques	Out-of-Bag
Log de vraisemblance de moyenne	0,4004
Zone située sous la courbe ROC	0,9028
IC à 95 %	(0,8693; 0,9363)
Lift	2,1079
Taux de mauvaise classification	0,1848

Récapitulatif du modèle

Nombre total de prédicteurs	13
Prédicteurs importants	13
Nombre d'arbres développés	500
Nombre optimal d'arbres	351

Statistiques	Apprentissage	Validation croisée
Log de vraisemblance de moyenne	0,2341	0,3865
Zone située sous la courbe ROC	0,9825	0,9089
IC à 95 %	(0,9706; 0,9945)	(0,8757; 0,9421)
Lift	2,1799	2,1087
Taux de mauvaise classification	0,0759	0,1750

Le tableau récapitulatif du modèle montre que la moyenne du log de vraisemblance négatif est de 0,3994. Ces statistiques indiquent un modèle similaire à celui Classification TreeNet^® créé lors de la culture de 500 arbres. De plus, les taux d’erreurs de classification sont similaires.

Le graphique Importance relative des variables trace les prédicteurs dans l’ordre de leur effet sur l’amélioration du modèle lorsque des divisions sont effectuées sur un prédicteur au cours de la séquence d’arbres. La variable de prédiction la plus importante est Principaux vaisseaux. Si la contribution de la principale variable de prédiction, Principaux vaisseaux, est de 100 %, alors la variable importante suivante, Thal, a une contribution de 89,7 %. Ainsi, Thal est à 89,7 % aussi importante que Principaux vaisseaux dans ce modèle de classification.

Matrice de confusion

	Catégorie prévue (Out-of-Bag)
Classe réelle	Dénombrement	Oui	Non	% correct
Oui (Événement)	139	109	30	78,42
Non	164	26	138	84,15
Tous	303	135	168	81,52

Statistiques	Out-of-Bag (%)
Taux de vrai positif (sensibilité ou puissance)	78,42
Taux de faux positif (erreur de type I)	15,85
Taux de faux négatif (erreur de type II)	21,58
Taux de vrai négatif (spécificité)	84,15

La matrice de confusion montre dans quelle mesure le modèle sépare correctement les classes. Dans cet exemple, la probabilité qu’un événement soit prédit correctement est de 78,42 %. La probabilité qu’un non-événement soit prédit correctement est de 84,15 %.

Mauvais classement

	Out-of-Bag
Classe réelle	Dénombrement	Mal classé	% erreur
Oui (Événement)	139	30	21,58
Non	164	26	15,85
Tous	303	56	18,48

Le taux d’erreurs de classification permet d’indiquer si le modèle prédira avec précision les nouvelles observations. L'erreur de mauvais classement est de 21,58 % pour la prédiction des événements. Pour la prédiction des non-événements, l’erreur de classification erronée est de 15,85 % et pour l’ensemble, l’erreur de classification erronée est de 18,48 %.

La zone située sous la courbe ROC pour ces données est d'environ 0,9028, ce qui montre une légère amélioration par rapport au modèle de la fonction Classification CART^®. Le Classification TreeNet^® modèle a un AUROC de validation croisée de 0,9089, donc ces deux méthodes donnent des résultats similaires.

Dans cet exemple, le graphique de gain montre une forte augmentation au-dessus de la ligne de référence, puis un aplatissement. Dans ce cas, environ 40 % des données représentent environ 78 % des vrais positifs. Cette différence est le gain supplémentaire lié à l’utilisation du modèle.

Dans cet exemple, le graphique d’élévation montre une forte augmentation au-dessus de la ligne de référence qui diminue progressivement.

Exemple de Classification Random Forests®

Remarque

Interpréter des résultats

Méthode

Informations de réponse binaire

Récapitulatif du modèle

Récapitulatif du modèle

Matrice de confusion

Mauvais classement

Exemple de Classification Random Forests^®