Prédicteurs importants

Nombre de prédicteurs ayant une importance relative positive.

Tout arbre de classification est une collection de divisions. Chaque division apporte une amélioration à l’arbre. Chaque division comprend également des divisions de substitution qui apportent également une amélioration à l’arbre. L’importance d’une variable est donnée par toutes ses améliorations lorsque l’arbre utilise la variable pour diviser un nœud ou comme substitut pour diviser un nœud lorsqu’une valeur manque dans une autre variable.

La formule suivante donne l’amélioration à un seul nœud :

Les valeurs de I(t), pGauche, et pDroite dépendent du critère de partition des nœuds. Pour plus d’informations, accédez à Méthodes de partition des nœud dans CART® Classification.

La formule de l’importance relative pour le qe prédicteur mesure l’importance par la variable la plus importante :

R carré de la somme des carrés des écarts

Minitab calcule le R carré de la somme des carrés des écarts lorsque la réponse est binaire. L’équation suivante donne la formule pour le R2de la somme des carrés des écarts :

Le calcul des valeurs de la somme des carrés des écarts dépend de la technique de validation.

Données d’apprentissage ou aucune validation

Notation pour les données d’apprentissage ou aucune validation

TermeDescription
probabilité de l’événement dans les données
Neffectif de l’échantillon des données complètes ou des données d’apprentissage
wipondération pour la ie observation de l’ensemble de données complet ou de l’ensemble de données d’apprentissage
yivariable d’indicateur qui est de 1 pour l’événement et de 0 autrement dans l’ensemble de données complet ou dans l’ensemble de données d’apprentissage
moyenne du log de vraisemblance

Validation croisée sur K partitions

Pour la validation croisée, les calculs omettent une partition à la fois.

Notation pour la validation croisée sur K partitions

TermeDescription
Knombre de partitions
probabilité de l’événement dans les données qui n’inclut pas les observations de la partition j
njeffectif de l’échantillon de la partition j
wijpondération pour la ie observation dans la partition j
yijvariable d’indicateur qui est de 1 pour l’événement et de 0 autrement pour les données de la partition j
probabilité prévue de l’événement à partir de l’estimation du modèle qui n’inclut pas les observations pour la ie observation dans la partition j

Ensemble de données de test

Les calculs pour l’ensemble de données de test sont similaires aux calculs pour les données d’apprentissage, mais utilisent les données de test.

Notation pour l’ensemble de données de test

TermeDescription
probabilité de l’événement dans l’ensemble de données d’apprentissage
nTesteffectif de l’échantillon de l’ensemble de données de test
wi, Testpondération pour la ie observation dans l’ensemble de données de test
yi, Testvariable d’indicateur qui est de 1 pour l’événement et de 0 autrement pour les données de l’ensemble de données de test
moyenne du log de vraisemblance

Moyenne du log de vraisemblance

Minitab calcule la moyenne de la fonction de log de vraisemblance négatif lorsque la réponse est binaire. Les calculs dépendent de la méthode de validation.

Données d’apprentissage ou aucune validation

Notation pour les données d’apprentissage ou aucune validation

TermeDescription
Neffectif de l’échantillon des données complètes ou des données d’apprentissage
wipondération pour la ie observation de l’ensemble de données complet ou de l’ensemble de données d’apprentissage
yivariable d’indicateur qui est de 1 pour l’événement et de 0 autrement dans l’ensemble de données complet ou dans l’ensemble de données d’apprentissage
probabilité prévue de l’événement pour la ie ligne de l’ensemble de données complet ou de l’ensemble de données d’apprentissage

Validation croisée sur K partitions

Notation pour la validation croisée sur K partitions

TermeDescription
Neffectif de l’échantillon des données complètes ou des données d’apprentissage
njeffectif de l’échantillon de la partition j
wijpondération pour la ie observation dans la partition j
yijvariable d’indicateur qui est de 1 pour l’événement et de 0 autrement pour les données de la partition j
probabilité prévue de l’événement à partir de l’estimation du modèle qui n’inclut pas les observations pour la ie observation dans la partition j

Ensemble de données de test

Notation pour l’ensemble de données de test

TermeDescription
nTesteffectif de l’échantillon de l’ensemble de données de test
wi, Testpondération pour la ie observation dans l’ensemble de données de test
yi, Testvariable d’indicateur qui est de 1 pour l’événement et de 0 autrement pour les données de l’ensemble de données de test
probabilité prévue de l’événement pour la ie ligne dans l’ensemble de données d’apprentissage

Zone située sous la courbe ROC

La courbe ROC indique le taux de vrais positifs (TPR), également appelé puissance, sur l’axe des Y, et le taux de faux positifs (FPR), également appelé erreur de type 1, sur l’axe des X. La zone située sous les valeurs de la courbe ROC varie de 0,5 à 1.

Formule

Pour la zone sous la courbe, Minitab utilise une intégration.

Dans la plupart des cas, cette intégrale est équivalente à l’addition suivante des zones de trapézoïdes :

k est le nombre de nœuds terminaux et (x0, y0) est le point (0, 0).

Par exemple, supposons que vos résultats aient 4 nœuds terminaux avec les coordonnées suivantes sur la courbe ROC :
X (taux de faux positifs) Y (taux de vrais positifs)
0,0923 0,3051
0,4154 0,7288
0,7538 0,9322
1 1
Ensuite, la zone sous la courbe ROC est donnée par le calcul suivant :

Notation

TermeDescription
TRP taux de vrais positifs
FPR taux de faux positifs
TPvrais positifs, événements qui ont été correctement évalués
P nombre d’événements positifs réels
FPvrais négatifs, non-événements qui ont été correctement évalués
N nombre d’événements négatifs réels
FNRtaux de faux négatifs
TNRtaux de vrais négatifs

IC à 95 % pour la zone située sous la courbe ROC

Minitab calcule un intervalle de confiance pour la zone située sous la courbe de la fonction d’efficacité du récepteur lorsque la réponse est binaire.

L’intervalle suivant donne les limites supérieure et inférieure de l’intervalle de confiance :

Le calcul de l’erreur type de la zone sous la courbe ROC () provient de Salford Predictive Modeler®. Pour obtenir des informations générales sur l’estimation de la variance de la zone située sous la courbe ROC, consultez les références suivantes :

Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations, dans B. Engelmann et R. Rauhmeier (éd.), The Basel II Risk Parameters: Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2e éd.) Heidelberg ; New York : Springer. doi :10.1007/978-3-642-16114-8

Cortes, C. et Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G., et Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603-2621. doi :10.1177/0962280215602040

Notation

TermeDescription
Azone située sous la courbe ROC
percentile de la loi normale standard

Lift

Minitab affiche le lift dans le tableau récapitulatif du modèle lorsque la réponse est binaire. Le lift du tableau récapitulatif du modèle correspond au lift cumulé pour les 10 % des données ayant les meilleures chances de classement correct.

Formule

Pour les 10 % d’observations des données ayant les probabilités les plus élevées d’être affectées à la classe d’événement, utilisez la formule suivante.

Pour le lift de test avec un ensemble de données de test, utilisez les observations de l’ensemble de données de test. Pour le lift de test avec la validation croisée sur K partitions, sélectionnez les données à utiliser et calculez le lift à partir des probabilités prévues pour les données qui ne sont pas dans l’estimation du modèle.

Notation

TermeDescription
dnombre de cas dans 10 % des données
probabilité prévue de l’événement
probabilité de l’événement dans les données d’apprentissage ou, si l’analyse n’utilise aucune validation, dans l’ensemble de données complet

Coût de mauvais classement

Le coût de mauvais classement du tableau récapitulatif du modèle est le coût relatif de mauvais classement pour le modèle par rapport à un classificateur sans importance qui classe toutes les observations dans la classe la plus fréquente.

Pour déterminer le coût de mauvais classement, commencez par la définition suivante :

La formule suivante correspond au coût relatif de mauvais classement :

R0 est le coût pour le classificateur sans importance.

La formule pour R est plus simple lorsque les probabilités a priori sont égales ou proviennent des données.

Probabilités a priori égales

Lorsque les probabilités a priori sont égales, la définition suivante s’applique :
Avec cette définition, R se calcule selon la formule suivante :

Probabilités a priori des données

Lorsque les probabilités a priori proviennent des données, la définition suivante s’applique :

Avec cette définition, R se calcule selon la formule suivante :

Notation

TermeDescription
πjprobabilité a priori de la je classe de la variable de réponse
coût du mauvais classement de la classe i comme classe j
nombre de classes i données mal classées comme classe j
Njnombre de cas dans la je classe de la variable de réponse
Knombre de classes dans la variable de réponse
Nnombre de cas dans les données
En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique