Méthodes et formules pour le récapitulatif du modèle dans Classification CART®

Sélectionnez la méthode ou la formule de votre choix.

Prédicteurs importants

Nombre de prédicteurs ayant une importance relative positive.

Tout arbre de classification est une collection de divisions. Chaque division apporte une amélioration à l'arbre. Chaque division comprend également des divisions de substitution qui apportent également une amélioration à l'arbre. L'importance d'une variable est donnée par toutes ses améliorations lorsque l'arbre l'utilise pour diviser un nœud, que ce soit directement ou comme substitut lorsqu'une valeur est manquante pour une autre variable.

La formule suivante donne l'amélioration à un seul nœud :

Les valeurs de I(t), de pGauche et de pDroite dépendent du critère de partition des nœuds. Pour plus d'informations, accédez à Méthodes de partition des nœud dans Classification CART®.

La formule de l'importance relative pour le qe prédicteur mesure l'importance par la variable la plus importante :

Moyenne du log négatif de vraisemblance

Minitab calcule la moyenne de la fonction de log de vraisemblance négatif lorsque la réponse est binaire. Les calculs dépendent de la méthode de validation.

Données d’apprentissage ou aucune validation

Notation pour les données d’apprentissage ou aucune validation

TermeDescription
Neffectif de l’échantillon des données complètes ou des données d’apprentissage
wipondération pour la ie observation de l'ensemble de données complet ou de l'ensemble de données d'apprentissage
yivariable d’indicateur qui est de 1 pour l’événement et de 0 autrement dans l’ensemble de données complet ou dans l’ensemble de données d’apprentissage
probabilité prévue de l'événement pour la ie ligne de l'ensemble de données complet ou de l'ensemble de données d'apprentissage

Validation croisée sur K ensembles

Notation pour la validation croisée sur K partitions

TermeDescription
Neffectif de l’échantillon des données complètes ou des données d’apprentissage
njeffectif de l'échantillon de la partition j
wijpondération pour la ie observation dans la partition j
yijvariable d'indicateur qui est de 1 pour l'événement et de 0 autrement pour les données de la partition j
probabilité prévue de l'événement à partir de l'estimation du modèle qui n'inclut pas les observations pour la ie observation dans la partition j

Ensemble de données de test

Notation pour l’ensemble de données de test

TermeDescription
nTesteffectif de l’échantillon de l’ensemble de test
wi, Testpondération pour la ie observation dans l'ensemble de données de test
yi, Testvariable d’indicateur qui est de 1 pour l’événement et de 0 autrement pour les données de l’ensemble de test
probabilité prévue de l'événement pour la ie ligne dans l'ensemble de test

Aire sous la courbe ROC

La courbe ROC trace le taux de vrais positifs (TPR), également appelé puissance, sur l'axe Y, et le taux de faux positifs (FPR), également appelé erreur de type 1, sur l'axe X. L'aire sous les valeurs de la courbe ROC varie généralement de 0,5 à 1.

Formule

Minitab utilise une intégration pour l'aire sous la courbe.

Dans la plupart des cas, cette intégrale est équivalente à l’addition suivante des zones de trapézoïdes :

k est le nombre de nœuds terminaux et (x0, y0) est le point (0, 0).

Par exemple, supposons que vos résultats aient 4 nœuds terminaux avec les coordonnées suivantes sur la courbe ROC :
X (taux de faux positifs) Y (taux de vrais positifs)
0,0923 0,3051
0,4154 0,7288
0,7538 0,9322
1 1
L'aire située sous la courbe ROC est donc donnée par le calcul suivant :

Notation

TermeDescription
TRPtaux de vrais positifs
FPRtaux de faux positifs
TPvrais positifs, événements qui ont été correctement évalués
Pnombre d’événements positifs réels
FPvrais négatifs, non-événements qui ont été correctement évalués
Nnombre d’événements négatifs réels
FNRtaux de faux négatifs
TNRtaux de vrais négatifs

IC à 95 % pour l'aire sous la courbe ROC

Minitab calcule un intervalle de confiance pour l'aire située sous la courbe de la fonction d’efficacité du récepteur lorsque la réponse est binaire.

L’intervalle suivant donne les limites supérieure et inférieure de l’intervalle de confiance :

Le calcul de l'erreur type de l'aire sous la courbe ROC () provient de Salford Predictive Modeler®. Pour obtenir des informations générales sur l’estimation de la variance de l'aire située sous la courbe ROC, consultez les références suivantes :

Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations, Dans B. Engelmann et R. Rauhmeier (Eds.), The Basel II Risk Parameters:Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2e éd.) Heidelberg ; New York : Springer. doi :10.1007/978-3-642-16114-8

Cortes, C. et Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G. et Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603-2621. doi :10.1177/0962280215602040

Notation

TermeDescription
Aaire située sous la courbe ROC
0,975 percentile de la loi normale standard

Lift

Minitab affiche le lift dans le tableau récapitulatif du modèle lorsque la réponse est binaire. Le lift du tableau récapitulatif du modèle correspond au lift cumulé pour les 10 % des données ayant les meilleures chances de classement correct.

Formule

Pour les 10 % d’observations des données ayant les probabilités les plus élevées d’être affectées à la classe d’événement, utilisez la formule suivante.

Pour le lift de test avec un ensemble de données de test, utilisez les observations de l’ensemble de données de test. Pour le lift de test avec la validation croisée sur K partitions, sélectionnez les données à utiliser et calculez le lift à partir des probabilités prévues pour les données qui ne sont pas dans l’estimation du modèle.

Notation

TermeDescription
dnombre de cas dans 10 % des données
probabilité prévue de l’événement
probabilité de l’événement dans les données d’apprentissage ou, si l’analyse n’utilise aucune validation, dans l’ensemble de données complet

Coût de mauvais classement

Le coût de mauvais classement du tableau récapitulatif du modèle est le coût relatif de mauvais classement pour le modèle par rapport à un classificateur sans importance qui classe toutes les observations dans la classe la plus fréquente.

Pour déterminer le coût de mauvais classement, commencez par la définition suivante :

La formule suivante correspond au coût relatif de mauvais classement :

R0 est le coût pour le classificateur sans importance.

La formule de R est plus simple lorsque les probabilités a priori sont égales ou proviennent des données.

Probabilités a priori égales

Lorsque les probabilités a priori sont égales, la définition suivante s’applique :
Avec cette définition, R se calcule selon la formule suivante :

Probabilités a priori des données

Lorsque les probabilités a priori proviennent des données, la définition suivante s’applique :

Avec cette définition, R se calcule selon la formule suivante :

Notation

TermeDescription
πjprobabilité a priori de la je classe de la variable de réponse
coût de la classe de mauvais classement i comme classe j
nombre d'enregistrements de classe i mal classés en classe j
Njnombre de cas dans la je classe de la variable de réponse
Knombre de classes dans la variable de réponse
Nnombre de cas dans les données