Tableau résumé des modèles pour Classification CART®

Trouvez des définitions et des pistes d’interprétation pour le tableau récapitulatif du modèle.
Remarque

Minitab affiche les résultats à la fois pour les données d’entraînement et les résultats de validation. Les résultats de la validation indiquent si le modèle peut prédire correctement les valeurs de réponse pour les nouvelles observations ou résumer correctement les relations entre la réponse et les variables prédictives. Les résultats de l’entraînement sont généralement plus idéaux que réels et ne sont donnés qu’à titre indicatif.

Cliquez pour Sélectionner un arbre alternatif ouvrir un graphique interactif qui inclut un tableau des statistiques récapitulatives du modèle. Utilisez le graphique pour étudier des arbres plus petits ayant des performances similaires.

En règle générale, un arbre avec moins de nœuds terminaux donne une image plus claire de la façon dont chaque variable de prédiction affecte les valeurs de réponse. Un arbre plus petit permet également d’identifier plus facilement quelques groupes cibles pour des études ultérieures. Si la différence de précision de prédiction pour un arbre plus petit est négligeable, vous pouvez utiliser l’arbre plus petit pour évaluer les relations entre la réponse et les variables de prédiction.

Nombre total de prédicteurs

Nombre total de prédicteurs disponibles pour l’arbre de classification. Il s’agit de la somme des prédicteurs continus et de catégorie que vous spécifiez.

Prédicteurs importants

Nombre de prédicteurs importants dans l’arbre de classification. Les prédicteurs importants sont les variables utilisées comme séparateurs principaux ou de substitution.

Interprétation

Vous pouvez utiliser le diagramme d'importance relative des variables pour afficher l'ordre d'importance relative des variables. Par exemple, supposons que 10 des 20 prédicteurs soient importants dans l’arbre de classification, le diagramme d’importance relative des variables affiche les variables dans l’ordre d’importance.

Nombre de nœuds terminaux

Un nœud terminal est un nœud final qui ne peut pas être divisé davantage.

Interprétation

Les nœuds terminaux sont les derniers groupes plus purs identifiés à l’aide de la méthode d’arbre de classification. Vous pouvez utiliser les informations des nœuds terminaux pour faire des prévisions.

Taille minimale des nœuds terminaux

La taille minimale des nœuds terminaux correspond au nœud terminal avec le plus petit nombre de cas.

Interprétation

Par défaut, Minitab définit le nombre minimal de cas autorisés pour un nœud terminal à trois cas ; cependant, votre arbre peut contenir des tailles minimales de nœuds terminaux plus grandes que trois. Vous pouvez également modifier cette valeur de seuil dans la sous-boîte de dialogue Options.

Moyenne du log de vraisemblance

Minitab calcule la moyenne de la fonction de log de vraisemblance négatif lorsque la réponse est binaire.

Interprétation

Comparez les valeurs moyennes –log-vraisemblance des résultats de validation entre les modèles pour déterminer celui qui correspond le mieux. La valeur moyenne plus faible de log de vraisemblance indique un meilleur ajustement.

Aire sous la courbe ROC

La courbe ROC trace le taux de positivité réelle (TPR), également connu sous le nom de puissance, sur l’axe des y. La courbe ROC trace le taux de faux positifs (FPR), également connu sous le nom d’erreur de type 1, sur l’axe des x. L’aire sous une courbe ROC indique si l’arbre de classification est un bon classificateur.

Interprétation

Pour les arbres de classification, les valeurs de l’aire sous la courbe ROC sont comprises entre 0,5 et 1. Lorsqu’un arbre de classification peut parfaitement séparer les classes, alors l’aire sous la courbe est 1. Lorsqu’un arbre de classification ne peut pas séparer les classes mieux qu’une affectation aléatoire, alors l’aire sous la courbe est de 0,5.

Lift

Minitab affiche le lift lorsque la réponse est binaire. Le lift correspond au lift cumulé pour les 10 % des données ayant les meilleures chances de classification correcte.

Interprétation

Le lift représente le rapport de la réponse cible divisée par la réponse moyenne. Lorsque le lift est supérieur à 1, un segment des données a une réponse supérieure à la prédiction.

Coût de mauvais classement

Le coût de mauvais classement est le coût relatif de mauvais classement. Le coût est relatif à un arbre qui prédit le résultat le plus commun pour chaque cas. Le coût relatif tient compte du taux d’erreur et du coût pondéré.

Interprétation

Le coût de la mauvaise classification pour les résultats de validation représente le coût de mauvaise classification qui se produit à tous les niveaux lorsque Minitab utilise l’arbre dans les résultats au lieu d’un autre arbre pour prédire les valeurs de réponse des nouvelles observations. Des valeurs plus faibles indiquent que l’arbre dans les résultats est plus efficace. Les valeurs inférieures à 1 indiquent que le modèle dans les résultats coûte moins cher qu’un modèle qui prédit le résultat le plus commun pour chaque cas.