Méthodes et formules pour le récapitulatif du modèle dans Classification CART^®

Sélectionnez la méthode ou la formule de votre choix.

Sur ce thème

Prédicteurs importants
Moyenne du log négatif de vraisemblance
Aire sous la courbe ROC

IC à 95 % pour l'aire sous la courbe ROC
Lift
Coût de mauvais classement

Prédicteurs importants

Nombre de prédicteurs ayant une importance relative positive.

Tout arbre de classification est une collection de divisions. Chaque division apporte une amélioration à l'arbre. Chaque division comprend également des divisions de substitution qui apportent également une amélioration à l'arbre. L'importance d'une variable est donnée par toutes ses améliorations lorsque l'arbre l'utilise pour diviser un nœud, que ce soit directement ou comme substitut lorsqu'une valeur est manquante pour une autre variable.

La formule suivante donne l'amélioration à un seul nœud :

Les valeurs de I(t), de p_Gauche et de p_Droite dépendent du critère de partition des nœuds. Pour plus d'informations, accédez à Méthodes de partition des nœud dans Classification CART®.

La formule de l'importance relative pour le q^e prédicteur mesure l'importance par la variable la plus importante :

Moyenne du log négatif de vraisemblance

Minitab calcule la moyenne de la fonction de log de vraisemblance négatif lorsque la réponse est binaire. Les calculs dépendent de la méthode de validation.

Données d’apprentissage ou aucune validation

où

Notation pour les données d’apprentissage ou aucune validation

Terme	Description
N	effectif de l’échantillon des données complètes ou des données d’apprentissage
w_i	pondération pour la i^e observation de l'ensemble de données complet ou de l'ensemble de données d'apprentissage
y_i	variable d’indicateur qui est de 1 pour l’événement et de 0 autrement dans l’ensemble de données complet ou dans l’ensemble de données d’apprentissage
	probabilité prévue de l'événement pour la i^e ligne de l'ensemble de données complet ou de l'ensemble de données d'apprentissage

Validation croisée sur K ensembles

où

Notation pour la validation croisée sur K partitions

Terme	Description
N	effectif de l’échantillon des données complètes ou des données d’apprentissage
n_j	effectif de l'échantillon de la partition j
w_ij	pondération pour la i^e observation dans la partition j
y_ij	variable d'indicateur qui est de 1 pour l'événement et de 0 autrement pour les données de la partition j
	probabilité prévue de l'événement à partir de l'estimation du modèle qui n'inclut pas les observations pour la i^e observation dans la partition j

Ensemble de données de test

où

Notation pour l’ensemble de données de test

Terme	Description
n_Test	effectif de l’échantillon de l’ensemble de test
w_i_{, Test}	pondération pour la i^e observation dans l'ensemble de données de test
y_i_{, Test}	variable d’indicateur qui est de 1 pour l’événement et de 0 autrement pour les données de l’ensemble de test
	probabilité prévue de l'événement pour la i^e ligne dans l'ensemble de test

Aire sous la courbe ROC

La courbe ROC trace le taux de vrais positifs (TPR), également appelé puissance, sur l'axe Y, et le taux de faux positifs (FPR), également appelé erreur de type 1, sur l'axe X. L'aire sous les valeurs de la courbe ROC varie généralement de 0,5 à 1.

Formule

Minitab utilise une intégration pour l'aire sous la courbe.

Dans la plupart des cas, cette intégrale est équivalente à l’addition suivante des zones de trapézoïdes :

où k est le nombre de nœuds terminaux et (x₀, y₀) est le point (0, 0).

Par exemple, supposons que vos résultats aient 4 nœuds terminaux avec les coordonnées suivantes sur la courbe ROC :

X (taux de faux positifs)	Y (taux de vrais positifs)
0,0923	0,3051
0,4154	0,7288
0,7538	0,9322
1	1

L'aire située sous la courbe ROC est donc donnée par le calcul suivant :

Notation

Terme	Description
TRP	taux de vrais positifs
FPR	taux de faux positifs
TP	vrais positifs, événements qui ont été correctement évalués
P	nombre d’événements positifs réels
FP	vrais négatifs, non-événements qui ont été correctement évalués
N	nombre d’événements négatifs réels
FNR	taux de faux négatifs
TNR	taux de vrais négatifs

IC à 95 % pour l'aire sous la courbe ROC

Minitab calcule un intervalle de confiance pour l'aire située sous la courbe de la fonction d’efficacité du récepteur lorsque la réponse est binaire.

L’intervalle suivant donne les limites supérieure et inférieure de l’intervalle de confiance :

Le calcul de l'erreur type de l'aire sous la courbe ROC () provient de Salford Predictive Modeler^®. Pour obtenir des informations générales sur l’estimation de la variance de l'aire située sous la courbe ROC, consultez les références suivantes :

Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations, Dans B. Engelmann et R. Rauhmeier (Eds.), The Basel II Risk Parameters:Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2e éd.) Heidelberg ; New York : Springer. doi :10.1007/978-3-642-16114-8

Cortes, C. et Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G. et Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603-2621. doi :10.1177/0962280215602040

Notation

Terme	Description
A	aire située sous la courbe ROC
	0,975 percentile de la loi normale standard

Lift

Minitab affiche le lift dans le tableau récapitulatif du modèle lorsque la réponse est binaire. Le lift du tableau récapitulatif du modèle correspond au lift cumulé pour les 10 % des données ayant les meilleures chances de classement correct.

Formule

Pour les 10 % d’observations des données ayant les probabilités les plus élevées d’être affectées à la classe d’événement, utilisez la formule suivante.

Pour le lift de test avec un ensemble de données de test, utilisez les observations de l’ensemble de données de test. Pour le lift de test avec la validation croisée sur K partitions, sélectionnez les données à utiliser et calculez le lift à partir des probabilités prévues pour les données qui ne sont pas dans l’estimation du modèle.

Notation

Terme	Description
d	nombre de cas dans 10 % des données
	probabilité prévue de l’événement
	probabilité de l’événement dans les données d’apprentissage ou, si l’analyse n’utilise aucune validation, dans l’ensemble de données complet

Coût de mauvais classement

Le coût de mauvais classement du tableau récapitulatif du modèle est le coût relatif de mauvais classement pour le modèle par rapport à un classificateur sans importance qui classe toutes les observations dans la classe la plus fréquente.

Pour déterminer le coût de mauvais classement, commencez par la définition suivante :

La formule suivante correspond au coût relatif de mauvais classement :

où R₀ est le coût pour le classificateur sans importance.

La formule de R est plus simple lorsque les probabilités a priori sont égales ou proviennent des données.

Probabilités a priori égales

Lorsque les probabilités a priori sont égales, la définition suivante s’applique :

Avec cette définition, R se calcule selon la formule suivante :

Probabilités a priori des données

Lorsque les probabilités a priori proviennent des données, la définition suivante s’applique :

Avec cette définition, R se calcule selon la formule suivante :

Notation

Terme	Description
π_j	probabilité a priori de la j^e classe de la variable de réponse
	coût de la classe de mauvais classement i comme classe j
	nombre d'enregistrements de classe i mal classés en classe j
N_j	nombre de cas dans la j^e classe de la variable de réponse
K	nombre de classes dans la variable de réponse
N	nombre de cas dans les données

Méthodes et formules pour le récapitulatif du modèle dans Classification CART®

Sur ce thème

Prédicteurs importants

Moyenne du log négatif de vraisemblance

Données d’apprentissage ou aucune validation

Notation pour les données d’apprentissage ou aucune validation

Validation croisée sur K ensembles

Notation pour la validation croisée sur K partitions

Ensemble de données de test

Notation pour l’ensemble de données de test

Aire sous la courbe ROC

Formule

Notation

IC à 95 % pour l'aire sous la courbe ROC

Notation

Lift

Formule

Notation

Coût de mauvais classement

Probabilités a priori égales

Probabilités a priori des données

Notation

Méthodes et formules pour le récapitulatif du modèle dans Classification CART^®