Méthodes et formules pour le récapitulatif du modèle dans Ajuster le modèle et Découvrir les prédicteurs principaux avec Classification TreeNet^®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Sélectionnez la méthode ou la formule de votre choix.

Sur ce thème

Prédicteurs importants
Moyenne du log négatif de vraisemblance pour une réponse binaire
Moyenne du log négatif de vraisemblance pour une réponse multinomiale
Aire sous la courbe ROC
IC à 95 % pour l'aire sous la courbe ROC
Lift
Taux de mauvais classement

Prédicteurs importants

Nombre de prédicteurs ayant une importance relative positive.

Un modèle Classification TreeNet^® provient d'une séquence de petits arbres de régression qui utilisent des valeurs résiduelles généralisées comme variable de réponse. Le calcul du score d’amélioration du modèle pour un prédicteur à partir d’un seul arbre s'effectue en deux étapes :

Trouvez la réduction des erreurs moyennes au carré lorsque le prédicteur divise un nœud.
Ajoutez toutes les réductions de tous les nœuds où le prédicteur est le séparateur de nœuds.

Le score d’importance pour le prédicteur est alors égal à la somme des scores d’amélioration du modèle sur tous les arbres.

Moyenne du log négatif de vraisemblance pour une réponse binaire

Les calculs dépendent de la méthode de validation.

Données d’apprentissage ou aucune validation

où

Notation pour les données d’apprentissage ou aucune validation

Terme	Description
N	effectif de l’échantillon des données complètes ou des données d’apprentissage
w_i	pondération pour la i^e observation de l'ensemble de données complet ou de l'ensemble de données d'apprentissage
y_i	i^e valeur de réponse qui vaut 1 pour l’événement et 0 autrement dans l’ensemble de données complet ou l’ensemble de données d’apprentissage
	probabilité prévue de l'événement pour la i^e ligne de l'ensemble de données complet ou de l'ensemble de données d'apprentissage
	valeur ajustée du modèle

Validation croisée sur K ensembles

où

Notation pour la validation croisée sur K partitions

Terme	Description
N	effectif de l’échantillon des données complètes ou des données d’apprentissage
n_k	effectif de l'échantillon de la partition k
w_{i, k}	pondération pour la i^e observation dans la partition k
y_{i, k}	valeur de réponse binaire du cas i dans la partition k. y_{i, k} = 1 pour la classe événement, et 0 autrement.
	probabilité prévue pour le cas i dans la partition k. La probabilité prévue provient du modèle qui n’utilise pas les données dans la partition k.
	valeur ajustée pour le cas i dans la partition k. La valeur ajustée provient du modèle qui n’utilise pas les données dans la partition k.

Ensemble de données de test

où

Notation pour l’ensemble de données de test

Terme	Description
n_Test	effectif de l’échantillon de l’ensemble de données de test
w_i_{, Test}	pondération pour la i^e observation dans l'ensemble de données de test
y_i_{, Test}	valeur de réponse binaire du cas i dans la partition k dans l’ensemble de données de test. y_{i, k} = 1 pour la classe événement, et 0 autrement.
	probabilité prévue pour le cas i dans l'ensemble de données de test
	valeur ajustée pour le cas i dans l'ensemble de données de test

Moyenne du log négatif de vraisemblance pour une réponse multinomiale

Les calculs dépendent de la méthode de validation. Dans les sections suivantes,

est nombre de niveaux dans la variable de réponse.

Données d’apprentissage ou aucune validation

où

Notation pour les données d’apprentissage ou aucune validation

Terme	Description
	effectif de l’échantillon des données complètes ou des données d’apprentissage
w_i	pondération pour la i^e observation de l'ensemble de données complet ou de l'ensemble de données d'apprentissage
y_{i, q}	i^e valeur de réponse qui vaut 1 lorsque et 0 autrement
	probabilité prévue du q^e niveau de la réponse pour la i^e ligne dans l'ensemble de données complet ou de l'ensemble de données d'apprentissage
	valeur ajustée de la q^e séquence d’arbres pour la i^e ligne, utilisée pour calculer la probabilité prévue du q^e niveau de la réponse

Validation croisée sur K ensembles

où

Notation pour la validation croisée sur K partitions

Terme	Description
N	effectif de l’échantillon des données d’apprentissage
n_k	effectif de l'échantillon de la partition k
w_{i, k}	pondération pour la i^e observation dans la partition k
y_{i, k, q}	i^e valeur de réponse du cas i dans la partition k qui vaut 1 quand et 0 autrement.
	La probabilité prévue du q^e niveau de la réponse pour la i^e ligne de la partition k. La probabilité prévue provient du modèle qui n’utilise pas les données dans la partition k.
	La valeur ajustée de la q^e séquence des arbres pour la i^e ligne de la partition k, utilisée pour calculer la probabilité prévue du q^e niveau de la réponse. La valeur ajustée provient du modèle qui n’utilise pas les données dans la partition k.

Ensemble de données de test

où

Notation pour l’ensemble de données de test

Terme	Description
n_Test	effectif de l’échantillon des données de test
w_i,_Test	pondération pour la i^e observation dans les données de test
y_i,_Test,_q	i^e valeur de réponse du cas i dans l’ensemble de données de test qui vaut 1 lorsque et 0 autrement.
	La probabilité prévue du q^e niveau de la réponse pour la i^e ligne dans les données de test. La probabilité prévue provient du modèle qui n’utilise pas les données de test.
	La valeur ajustée pour la q^e séquence des arbres pour la i^e ligne dans les données de test, utilisée pour calculer la probabilité prévue du q^e niveau de la réponse. La probabilité prévue provient du modèle qui n’utilise pas les données de test.

Aire sous la courbe ROC

Le tableau de récapitulatif du modèle inclut l'aire sous la courbe ROC lorsque la réponse est binaire. La courbe ROC trace le taux de vrais positifs (TPR), également appelé puissance, sur l'axe Y, et le taux de faux positifs (FPR), également appelé erreur de type 1, sur l'axe X. L'aire sous les valeurs de la courbe ROC varie généralement de 0,5 à 1.

Formule

L'aire située sous la courbe est la somme des aires des trapèzes :

où k est le nombre de probabilités d'événements distinctes et (x₀, y₀) est le point (0, 0).

Pour calculer l'aire d'une courbe à partir d'un ensemble de données de test ou à partir de données à validation croisée, utilisez les points de la courbe correspondante.

Notation

Terme	Description
TPR	taux de vrais positifs
FPR	taux de faux positifs
TP	vrais positifs, événements qui ont été correctement évalués
FN	faux négatifs, événements qui ont été mal évalués
P	nombre d’événements positifs réels
FP	faux positifs, non-événements qui ont été mal évalués
N	nombre d’événements négatifs réels
FNR	taux de faux négatifs
TNR	taux de vrais négatifs

Exemple

Par exemple, supposons que vos résultats aient 4 valeurs ajustées distinctes avec les coordonnées suivantes sur la courbe ROC :

X (taux de faux positifs)	Y (taux de vrais positifs)
0,0923	0,3051
0,4154	0,7288
0,7538	0,9322
1	1

L'aire située sous la courbe ROC est donc donnée par le calcul suivant :

IC à 95 % pour l'aire sous la courbe ROC

Minitab calcule un intervalle de confiance pour l'aire située sous la courbe de la fonction d’efficacité du récepteur lorsque la réponse est binaire.

L’intervalle suivant donne les limites supérieure et inférieure de l’intervalle de confiance :

Le calcul de l'erreur type de l'aire sous la courbe ROC () provient de Salford Predictive Modeler^®. Pour obtenir des informations générales sur l’estimation de la variance de l'aire située sous la courbe ROC, consultez les références suivantes :

Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations, Dans B. Engelmann et R. Rauhmeier (Eds.), The Basel II Risk Parameters:Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2e éd.) Heidelberg ; New York : Springer. doi :10.1007/978-3-642-16114-8

Cortes, C. et Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G. et Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603-2621. doi :10.1177/0962280215602040

Notation

Terme	Description
A	aire située sous la courbe ROC
	0,975 percentile de la loi normale standard

Lift

Minitab affiche le lift dans le tableau récapitulatif du modèle lorsque la réponse est binaire. Le lift du tableau récapitulatif du modèle correspond au lift cumulé pour 10 % des données.

Pour consulter les calculs généraux du lift cumulé, accédez à Méthodes et formules pour la courbe de lift dansAjuster le modèle et Découvrir les prédicteurs principaux avec Classification TreeNet®.

Taux de mauvais classement

Dans le cas pondéré, utilisez les dénombrements pondérés à la place des dénombrements.

Pour la validation croisée sur K partitions, le nombre de cas mal classés correspond à la somme des mauvais classements, lorsque chaque partition est l'ensemble de données de test.

Pour la validation avec un ensemble de données de test, le nombre de cas mal classés correspond à la somme des mauvais classements dans l'ensemble de données de test et le dénombrement total correspond à l'ensemble de données de test.

Méthodes et formules pour le récapitulatif du modèle dans Ajuster le modèle et Découvrir les prédicteurs principaux avec Classification TreeNet®

Remarque

Sur ce thème

Prédicteurs importants

Moyenne du log négatif de vraisemblance pour une réponse binaire

Données d’apprentissage ou aucune validation

Notation pour les données d’apprentissage ou aucune validation

Validation croisée sur K ensembles

Notation pour la validation croisée sur K partitions

Ensemble de données de test

Notation pour l’ensemble de données de test

Moyenne du log négatif de vraisemblance pour une réponse multinomiale

Données d’apprentissage ou aucune validation

Notation pour les données d’apprentissage ou aucune validation

Validation croisée sur K ensembles

Notation pour la validation croisée sur K partitions

Ensemble de données de test

Notation pour l’ensemble de données de test

Aire sous la courbe ROC

Formule

Notation

Exemple

IC à 95 % pour l'aire sous la courbe ROC

Notation

Lift

Taux de mauvais classement

Méthodes et formules pour le récapitulatif du modèle dans Ajuster le modèle et Découvrir les prédicteurs principaux avec Classification TreeNet^®