Méthodes et formules pour le récapitulatif du modèle dans Ajuster le modèle et Découvrir les prédicteurs principaux avec Classification TreeNet®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Sélectionnez la méthode ou la formule de votre choix.

Prédicteurs importants

Nombre de prédicteurs ayant une importance relative positive.
Un modèle Classification TreeNet® provient d'une séquence de petits arbres de régression qui utilisent des valeurs résiduelles généralisées comme variable de réponse. Le calcul du score d’amélioration du modèle pour un prédicteur à partir d’un seul arbre s'effectue en deux étapes :
  1. Trouvez la réduction des erreurs moyennes au carré lorsque le prédicteur divise un nœud.
  2. Ajoutez toutes les réductions de tous les nœuds où le prédicteur est le séparateur de nœuds.

Le score d’importance pour le prédicteur est alors égal à la somme des scores d’amélioration du modèle sur tous les arbres.

Moyenne du log négatif de vraisemblance pour une réponse binaire

Les calculs dépendent de la méthode de validation.

Données d’apprentissage ou aucune validation

et

Notation pour les données d’apprentissage ou aucune validation

TermeDescription
Neffectif de l’échantillon des données complètes ou des données d’apprentissage
wipondération pour la ie observation de l'ensemble de données complet ou de l'ensemble de données d'apprentissage
yiie valeur de réponse qui vaut 1 pour l’événement et 0 autrement dans l’ensemble de données complet ou l’ensemble de données d’apprentissage
probabilité prévue de l'événement pour la ie ligne de l'ensemble de données complet ou de l'ensemble de données d'apprentissage
valeur ajustée du modèle

Validation croisée sur K ensembles

et

Notation pour la validation croisée sur K partitions

TermeDescription
Neffectif de l’échantillon des données complètes ou des données d’apprentissage
nkeffectif de l'échantillon de la partition k
wi, kpondération pour la ie observation dans la partition k
yi, kvaleur de réponse binaire du cas i dans la partition k. yi, k = 1 pour la classe événement, et 0 autrement.
probabilité prévue pour le cas i dans la partition k. La probabilité prévue provient du modèle qui n’utilise pas les données dans la partition k.
valeur ajustée pour le cas i dans la partition k. La valeur ajustée provient du modèle qui n’utilise pas les données dans la partition k.

Ensemble de données de test

et

Notation pour l’ensemble de données de test

TermeDescription
nTesteffectif de l’échantillon de l’ensemble de données de test
wi, Testpondération pour la ie observation dans l'ensemble de données de test
yi, Testvaleur de réponse binaire du cas i dans la partition k dans l’ensemble de données de test. yi, k = 1 pour la classe événement, et 0 autrement.
probabilité prévue pour le cas i dans l'ensemble de données de test
valeur ajustée pour le cas i dans l'ensemble de données de test

Moyenne du log négatif de vraisemblance pour une réponse multinomiale

Les calculs dépendent de la méthode de validation. Dans les sections suivantes, est nombre de niveaux dans la variable de réponse.

Données d’apprentissage ou aucune validation

Notation pour les données d’apprentissage ou aucune validation

TermeDescription
effectif de l’échantillon des données complètes ou des données d’apprentissage
wipondération pour la ie observation de l'ensemble de données complet ou de l'ensemble de données d'apprentissage
yi, qie valeur de réponse qui vaut 1 lorsque et 0 autrement
probabilité prévue du qe niveau de la réponse pour la ie ligne dans l'ensemble de données complet ou de l'ensemble de données d'apprentissage
valeur ajustée de la qe séquence d’arbres pour la ie ligne, utilisée pour calculer la probabilité prévue du qe niveau de la réponse

Validation croisée sur K ensembles

Notation pour la validation croisée sur K partitions

TermeDescription
Neffectif de l’échantillon des données d’apprentissage
nkeffectif de l'échantillon de la partition k
wi, kpondération pour la ie observation dans la partition k
yi, k, qie valeur de réponse du cas i dans la partition k qui vaut 1 quand et 0 autrement.
La probabilité prévue du qe niveau de la réponse pour la ie ligne de la partition k. La probabilité prévue provient du modèle qui n’utilise pas les données dans la partition k.
La valeur ajustée de la qe séquence des arbres pour la ie ligne de la partition k, utilisée pour calculer la probabilité prévue du qe niveau de la réponse. La valeur ajustée provient du modèle qui n’utilise pas les données dans la partition k.

Ensemble de données de test

Notation pour l’ensemble de données de test

TermeDescription
nTesteffectif de l’échantillon des données de test
wi, Testpondération pour la ie observation dans les données de test
yi, Test, qie valeur de réponse du cas i dans l’ensemble de données de test qui vaut 1 lorsque et 0 autrement.
La probabilité prévue du qe niveau de la réponse pour la ie ligne dans les données de test. La probabilité prévue provient du modèle qui n’utilise pas les données de test.
La valeur ajustée pour la qe séquence des arbres pour la ie ligne dans les données de test, utilisée pour calculer la probabilité prévue du qe niveau de la réponse. La probabilité prévue provient du modèle qui n’utilise pas les données de test.

Aire sous la courbe ROC

Le tableau de récapitulatif du modèle inclut l'aire sous la courbe ROC lorsque la réponse est binaire. La courbe ROC trace le taux de vrais positifs (TPR), également appelé puissance, sur l'axe Y, et le taux de faux positifs (FPR), également appelé erreur de type 1, sur l'axe X. L'aire sous les valeurs de la courbe ROC varie généralement de 0,5 à 1.

Formule

L'aire située sous la courbe est la somme des aires des trapèzes :

k est le nombre de probabilités d'événements distinctes et (x0, y0) est le point (0, 0).

Pour calculer l'aire d'une courbe à partir d'un ensemble de données de test ou à partir de données à validation croisée, utilisez les points de la courbe correspondante.

Notation

TermeDescription
TPRtaux de vrais positifs
FPRtaux de faux positifs
TPvrais positifs, événements qui ont été correctement évalués
FNfaux négatifs, événements qui ont été mal évalués
Pnombre d’événements positifs réels
FPfaux positifs, non-événements qui ont été mal évalués
Nnombre d’événements négatifs réels
FNRtaux de faux négatifs
TNRtaux de vrais négatifs

Exemple

Par exemple, supposons que vos résultats aient 4 valeurs ajustées distinctes avec les coordonnées suivantes sur la courbe ROC :
X (taux de faux positifs) Y (taux de vrais positifs)
0,0923 0,3051
0,4154 0,7288
0,7538 0,9322
1 1
L'aire située sous la courbe ROC est donc donnée par le calcul suivant :

IC à 95 % pour l'aire sous la courbe ROC

Minitab calcule un intervalle de confiance pour l'aire située sous la courbe de la fonction d’efficacité du récepteur lorsque la réponse est binaire.

L’intervalle suivant donne les limites supérieure et inférieure de l’intervalle de confiance :

Le calcul de l'erreur type de l'aire sous la courbe ROC () provient de Salford Predictive Modeler®. Pour obtenir des informations générales sur l’estimation de la variance de l'aire située sous la courbe ROC, consultez les références suivantes :

Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations, Dans B. Engelmann et R. Rauhmeier (Eds.), The Basel II Risk Parameters:Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2e éd.) Heidelberg ; New York : Springer. doi :10.1007/978-3-642-16114-8

Cortes, C. et Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G. et Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603-2621. doi :10.1177/0962280215602040

Notation

TermeDescription
Aaire située sous la courbe ROC
0,975 percentile de la loi normale standard

Lift

Minitab affiche le lift dans le tableau récapitulatif du modèle lorsque la réponse est binaire. Le lift du tableau récapitulatif du modèle correspond au lift cumulé pour 10 % des données.

Taux de mauvais classement

Dans le cas pondéré, utilisez les dénombrements pondérés à la place des dénombrements.

Pour la validation croisée sur K partitions, le nombre de cas mal classés correspond à la somme des mauvais classements, lorsque chaque partition est l'ensemble de données de test.

Pour la validation avec un ensemble de données de test, le nombre de cas mal classés correspond à la somme des mauvais classements dans l'ensemble de données de test et le dénombrement total correspond à l'ensemble de données de test.