Méthodes et formules pour le récapitulatif du modèle pour la fonction Ajuster le modèle logistique binaire

Sélectionnez la méthode ou la formule de votre choix.

R2 de la somme des carrés d'écart

Le R2 de la somme des carrés d'écart indique la part de variation de la réponse expliquée par le modèle. Plus la valeur de R2 est grande, plus le modèle est ajusté aux données. La formule estla suivante :

Notation

TermeDescription
DEError Deviance
DTTotal Deviance

R2 ajusté de la somme des carrés d'écart

Le R2 ajusté de la somme des carrés d'écart rend compte du nombre de prédicteurs du modèle et est utile pour comparer des modèles avec un nombre de prédicteurs différents. La formule est la suivante :

Notation

TermeDescription
R2R2 de la somme des carrés d'écart
pdegrés de liberté de la régression
Φ1, pour le modèle binomial et le modèle de Poisson
DTsomme des carrés d'écart totale

Même si les calculs pour le R2 ajusté de la somme des carrés d'écart peuvent engendrer des valeurs négatives, Minitab affiche zéro.

Critère d'information d'Akaike (AIC)

Utilisez cette statistique pour comparer deux modèles différents. Plus l'AIC est petit, plus le modèle est adapté aux données.

Les fonctions de log de vraisemblance sont paramétrées dans les termes des moyennes. La forme générale des fonctions est la suivante :

La forme générale des contributions individuelles est la suivante :

La forme spécifique des contributions individuelles dépend du modèle.

Modèle li
Binomiale
Poisson

Notation

TermeDescription
pdegrés de liberté de la régression
Lclog de vraisemblance du modèle actuel
yinombre d'événements pour la ie ligne
minombre d'essais pour la ie ligne
réponse moyenne estimée de la ie ligne

AICc (critère d'information d'Akaike corrigé)

La valeur AICc n'est pas calculée quand .

Notation

TermeDescription
pnombre de coefficients dans le modèle, constante incluse
nnombre de lignes de données où aucune donnée n'est manquante

BIC (critère d'information bayésien)

Notation

TermeDescription
pnombre de coefficients dans le modèle, constante non incluse
nnombre de lignes de données où aucune donnée n'est manquante

R2 de la somme des carrés des écarts de test

Le R2 de la somme des carrés des écarts de test indique le degré de variation dans la réponse de l’ensemble de données de test que le modèle explique. Plus la valeur est élevée, plus le modèle correspond aux données de test.

Formule

L’équation suivante donne la formule pour le R2 de la somme des carrés des écarts de test :

où l’équation suivante représente la somme des carrés des écarts d’erreur :

La formule de la somme des carrés des écarts totale, DT(Test), dépend de la forme du modèle.
Logistique binaire
où, pour les modèles avec terme d'ordonnée à l'origine, se définit par :
Pour les modèles sans terme d'ordonnée à l'origine, utilisez l'inverse de la fonction de liaison à 0. Les valeurs des fonctions de liaison dans Minitab sont les suivantes :
Fonction de liaison logit
 = 0,5.
Fonction de liaison normit
 = 0,5.
Fonction de liaison gompit
.
Poisson
où, pour les modèles avec terme d’ordonnée à l'origine
Pour les modèles sans terme d'ordonnée à l'origine, .

Notation

TermeDescription
N(Test)le nombre de lignes dans l'ensemble de données de test
les valeurs résiduelles de la somme des carrés des écarts au carré
yile nombre d'événements pour la ie ligne de l'ensemble de données de test
mile nombre d'essais pour la ie ligne de l'ensemble de données de test
DE(Test)la somme des carrés des écarts d'erreur pour l'ensemble de données de test
DT(Test)la somme des carrés des écarts totale pour l'ensemble de données de test

R2 de la somme des carrés des écarts sur K partitions

Le R2 de la somme des carrés des écarts sur K partitions indique le degré de variation dans la réponse de l'ensemble de données de validation que le modèle explique. Plus la valeur est élevée, plus le modèle correspond aux données de test.

et DT représente la somme des carrés des écarts totale.

Notation

TermeDescription
Knombre de partitions
njeffectif de l'échantillon de la partition j
valeurs résiduelles à validation croisée pour la ie ligne de la partition j

Zone située sous la courbe ROC

Formule

La zone située sous la courbe est l'addition des zones de trapézoïdes :

k est le nombre de probabilités d'événements distinctes et (x0, y0) est le point (0, 0).

Pour calculer la zone d'une courbe à partir d'un ensemble de données de test ou à partir de données à validation croisée, utilisez les points de la courbe correspondante.

Par exemple, supposons que nous ayons quatre probabilités d’événement distinctes avec les coordonnées suivantes sur la courbe ROC :
X (taux de faux positifs) Y (taux de vrais positifs)
0,0923 0,3051
0,4154 0,7288
0,7538 0,9322
1 1
La zone située sous la courbe ROC est donc donnée par le calcul suivant :

Notation

TermeDescription
TRPtaux de vrais positifs
FPRtaux de faux positifs
TPvrais positifs, événements qui ont été correctement évalués
Pnombre d’événements positifs réels
FPvrais négatifs, non-événements qui ont été correctement évalués
Nnombre d’événements négatifs réels
FNRtaux de faux négatifs
TNRtaux de vrais négatifs