Méthodes et formules pour la fonction Régression logistique nominale

Sélectionnez la méthode ou la formule de votre choix.

Modèle

Minitab calcule les fonctions logit K – 1 pour un modèle avec K catégories de réponse. Par exemple, une réponse comportant trois catégories (1, 2, 3) a deux fonctions logit (événement de référence = 3) :

Formule

Notation

TermeDescription
gk(x) fonction de liaison logit
θkconstante associée à la ke catégorie de réponse distincte
xkvecteur de variables de prédiction
bkvecteur de coefficients associés à la kefonction logit

Combinaison de facteurs/covariables

Décrit un ensemble unique de valeurs de facteurs/covariables dans un fichier de données. Minitab calcule les probabilités d'événements, les valeurs résiduelles et d'autres mesures de diagnostic pour chaque combinaison de facteurs/covariables.

Par exemple, si un fichier de données inclut des facteurs relatifs au sexe et à l'origine ethnique et la covariable relative à l'âge, la combinaison de ces prédicteurs peut contenir autant de combinaisons de covariables que de sujets. Si un fichier de données inclut uniquement les facteurs relatifs au sexe et à l'origine ethnique, les deux étant codés à deux niveaux, il existe seulement quatre combinaisons de facteurs/covariables possibles. Si vous saisissez les données comme des effectifs (ou des réussites, des essais ou des échecs), chaque ligne contient une combinaison de facteurs/covariables.

Probabilité d'événement

Notée comme π. Pour un modèle comportant trois catégories 1, 2 et 3 (événement de référence 3), les probabilités conditionnelles sont les suivantes :

Formule

La probabilité d'événement est la suivante :

πk(x) = P(y = k|x) pour k = 1, 2, 3. Chaque probabilité est une fonction du vecteur des paramètres 2(p + 1), b' = (b'1, b'2)

Log de vraisemblance

La fonction de log de vraisemblance est maximisée pour générer des valeurs optimales de b. Pour un modèle comportant 3 catégories de réponse (référence = 3), la fonction de log de vraisemblance est la suivante :

Les équations de probabilité se trouvent en prenant les premières dérivées partielles de L (b) pour chacun des 2 paramètres (p + 1). La forme générale de ces équations est la suivante :

Les estimations par le maximum de vraisemblance sont obtenues en définissant ces équations sur zéro et en résolvant b.

Notation

TermeDescription
k 1, 2
j0, 1, 2, ..., p
pnombre de coefficients dans le modèle, coefficients de constante exclus
πki πk(xi), avec x0i pour chaque sujet

Coefficients

Estimations par le maximum de vraisemblance, également appelées estimations des paramètres. S'il existe des valeurs de réponse distinctes K, Minitab estime K – 1 ensembles d'estimations des paramètres pour chaque prédicteur. Les effets peuvent varier en fonction de la catégorie de réponse par rapport à l'événement de référence. Chaque logit fournit les différences estimées des probabilités de succès du logarithme d'une catégorie de réponse par rapport à l'événement de référence. Les paramètres dans les équations K – 1 déterminent les paramètres pour les logits à l'aide d'autres paires de catégories de réponse.

Les coefficients estimés sont calculés à l'aide d'une méthode des moindres carrés itératifs repondérés qui équivaut à l'estimation par le maximum de vraisemblance.1,2

Références

  1. D.W. Hosmer et S. Lemeshow (2000). Applied Logistic Regression. 2nd ed. John Wiley & Sons, Inc.
  2. P. McCullagh et J.A. Nelder (1992). Generalized Linear Model. Chapman & Hall.

Erreur type des coefficients

Erreur type asymptotique qui indique la précision du coefficient estimé. Plus l'erreur type est petite, plus l'estimation est précise.

Pour plus d'informations, reportez-vous à [1] et à [2].

  1. A. Agresti (1990). Categorical Data Analysis. John Wiley & Sons, Inc.
  2. P. McCullagh et J.A. Nelder (1992). Generalized Linear Model. Chapman & Hall.

Z

La valeur de Z sert à déterminer si le prédicteur est associé à la réponse de manière significative. Des valeurs absolues de Z élevées indiquent une relation significative. La valeur de p indique où Z se situe sur la loi normale.

Formule

Z = βi / erreur type

La formule pour la constante est la suivante :

Z = θk / erreur type

Pour les petits échantillons, le test du rapport de vraisemblance peut être un test de signification plus fiable.

valeur de p (P)

Utilisée dans les tests d'hypothèse pour vous aider à décider de rejeter ou non une hypothèse nulle. La valeur de p est la probabilité d'obtenir une statistique de test au moins aussi extrême que la valeur réelle que vous avez calculée, si l'hypothèse nulle est vérifiée. Une valeur limite couramment utilisée pour la valeur de p est 0,05. Par exemple, si la valeur de p d'une statistique de test est inférieure à 0,05, rejetez l'hypothèse nulle.

Rapport des probabilités de succès

Utile pour interpréter la relation entre un prédicteur et une réponse.

Le rapport des probabilités de succès (q) peut être un nombre non négatif. Un rapport des probabilités de succès de 1 sert de référence pour la comparaison. Si θ = 1, il n'existe aucune association entre la réponse et le prédicteur. Si θ > 1, les probabilités de succès de l'événement de réponse de la comparaison sont plus élevées pour le niveau de référence du facteur (ou pour les niveaux supérieurs d'un prédicteur continu). Si θ < 1, les probabilités de succès de l'événement de réponse de la comparaison sont plus faibles pour le niveau de référence du facteur (ou pour les niveaux supérieurs d'un prédicteur continu). Les valeurs éloignées de 1 représentent des degrés d'association plus importants.

Par exemple, pour un modèle comportant trois catégories de réponse (1, 2 et 3) et un prédicteur, le rapport des probabilités de succès indique les probabilités de succès pour la catégorie de résultats k par rapport à la catégorie de résultats utilisée comme événement de référence (3 dans le présent exemple). Vous trouverez ci-après la formule pour le rapport des probabilités de succès pour un prédicteur avec deux niveaux, a et b.

Formule

Notation

TermeDescription
k catégorie de résultats

Intervalle de confiance

Formule

L'intervalle de confiance du grand échantillon pour βi est le suivant :

β i + Zα /2* (erreur type)

Pour obtenir l'intervalle de confiance des rapports des probabilités de succès, utilisez un exposant pour les limites supérieure et inférieure de l'intervalle de confiance. L'intervalle indique l'étendue des probabilités de succès pour chaque variation d'unité du prédicteur.

Notation

TermeDescription
α seuil de signification

Matrice de variance/covariance

Matrice carrée avec les dimensions p +1 × (K – 1). La variance de chaque coefficient figure dans la cellule diagonale et la covariance de chaque paire de coefficients figure dans la cellule hors diagonale appropriée. La variance est l'erreur type du coefficient au carré.

La matrice de variance/covariance est asymptotique et provient de la dernière itération de la valeur inverse de la matrice d'informations. La matrice des deuxièmes dérivées partielles est utilisée pour obtenir la matrice de covariance.

Notation

TermeDescription
p nombre de prédicteurs
Knombre de catégories dans la réponse

Pearson

Statistique récapitulative fondée sur les valeurs résiduelles de Pearson, qui indique le degré d'ajustement du modèle à vos données. La méthode de Pearson n'est pas utile lorsque le nombre de valeurs distinctes de la covariable est approximativement égal au nombre d'observations, mais elle est utile lorsque vous avez des observations répétées au même niveau de covariable. Les statistiques de test χ2 élevées et les valeurs de p faibles indiquent que le modèle peut ne pas s'ajuster correctement aux données.

La formule est la suivante :

où r = valeur résiduelle de Pearson, m = nombre d'essais dans la je combinaison de facteurs/covariables et π0 = valeur supposée pour la proportion.

somme des carrés d'écart

Statistique récapitulative fondée sur les valeurs résiduelles de la somme des carrés d'écart, qui indique le degré d'ajustement du modèle à vos données. La somme des carrés d'écart n'est pas utile lorsque le nombre de valeurs distinctes de la covariable est approximativement égal au nombre d'observations, mais elle est utile lorsque vous avez des observations répétées au même niveau de covariable. Les valeurs élevées de D et les valeurs de p faibles indiquent que le modèle peut ne pas s'ajuster correctement aux données. Les degrés de liberté pour le test est (k - 1)*J − (p), où k représente le nombre de catégories de la réponse, J représente le nombre de combinaisons de facteurs/covariables et p représente le nombre de coefficients.

La formule est la suivante :

D =2 Σ yik log p ik− 2 Σ yik log π ik

où πik = probabilité de la ie observation pour la ke catégorie.