Minitab calcule les fonctions logit K – 1 pour un modèle avec K catégories de réponse. Par exemple, une réponse comportant trois catégories (1, 2, 3) a deux fonctions logit (événement de référence = 3) :
Terme | Description |
---|---|
gk(x) | fonction de liaison logit |
θk | constante associée à la ke catégorie de réponse distincte |
xk | vecteur de variables de prédiction |
bk | vecteur de coefficients associés à la kefonction logit |
Décrit un ensemble unique de valeurs de facteurs/covariables dans un fichier de données. Minitab calcule les probabilités d'événements, les valeurs résiduelles et d'autres mesures de diagnostic pour chaque combinaison de facteurs/covariables.
Par exemple, si un fichier de données inclut des facteurs relatifs au sexe et à l'origine ethnique et la covariable relative à l'âge, la combinaison de ces prédicteurs peut contenir autant de combinaisons de covariables que de sujets. Si un fichier de données inclut uniquement les facteurs relatifs au sexe et à l'origine ethnique, les deux étant codés à deux niveaux, il existe seulement quatre combinaisons de facteurs/covariables possibles. Si vous saisissez les données comme des effectifs (ou des réussites, des essais ou des échecs), chaque ligne contient une combinaison de facteurs/covariables.
Notée comme π. Pour un modèle comportant trois catégories 1, 2 et 3 (événement de référence 3), les probabilités conditionnelles sont les suivantes :
La probabilité d'événement est la suivante :
πk(x) = P(y = k|x) pour k = 1, 2, 3. Chaque probabilité est une fonction du vecteur des paramètres 2(p + 1), b' = (b'1, b'2)
La fonction de log de vraisemblance est maximisée pour générer des valeurs optimales de b. Pour un modèle comportant 3 catégories de réponse (référence = 3), la fonction de log de vraisemblance est la suivante :
Les estimations par le maximum de vraisemblance sont obtenues en définissant ces équations sur zéro et en résolvant b.
Terme | Description |
---|---|
k | 1, 2 |
j | 0, 1, 2, ..., p |
p | nombre de coefficients dans le modèle, coefficients de constante exclus |
πki | πk(xi), avec x0i pour chaque sujet |
Estimations par le maximum de vraisemblance, également appelées estimations des paramètres. S'il existe des valeurs de réponse distinctes K, Minitab estime K – 1 ensembles d'estimations des paramètres pour chaque prédicteur. Les effets peuvent varier en fonction de la catégorie de réponse par rapport à l'événement de référence. Chaque logit fournit les différences estimées des probabilités de succès du logarithme d'une catégorie de réponse par rapport à l'événement de référence. Les paramètres dans les équations K – 1 déterminent les paramètres pour les logits à l'aide d'autres paires de catégories de réponse.
Les coefficients estimés sont calculés à l'aide d'une méthode des moindres carrés itératifs repondérés qui équivaut à l'estimation par le maximum de vraisemblance.1,2
Erreur type asymptotique qui indique la précision du coefficient estimé. Plus l'erreur type est petite, plus l'estimation est précise.
Pour plus d'informations, reportez-vous à [1] et à [2].
La valeur de Z sert à déterminer si le prédicteur est associé à la réponse de manière significative. Des valeurs absolues de Z élevées indiquent une relation significative. La valeur de p indique où Z se situe sur la loi normale.
Z = βi / erreur type
La formule pour la constante est la suivante :
Z = θk / erreur type
Pour les petits échantillons, le test du rapport de vraisemblance peut être un test de signification plus fiable.
Utilisée dans les tests d'hypothèse pour vous aider à décider de rejeter ou non une hypothèse nulle. La valeur de p est la probabilité d'obtenir une statistique de test au moins aussi extrême que la valeur réelle que vous avez calculée, si l'hypothèse nulle est vérifiée. Une valeur limite couramment utilisée pour la valeur de p est 0,05. Par exemple, si la valeur de p d'une statistique de test est inférieure à 0,05, rejetez l'hypothèse nulle.
Utile pour interpréter la relation entre un prédicteur et une réponse.
Le rapport des probabilités de succès (q) peut être un nombre non négatif. Un rapport des probabilités de succès de 1 sert de référence pour la comparaison. Si θ = 1, il n'existe aucune association entre la réponse et le prédicteur. Si θ > 1, les probabilités de succès de l'événement de réponse de la comparaison sont plus élevées pour le niveau de référence du facteur (ou pour les niveaux supérieurs d'un prédicteur continu). Si θ < 1, les probabilités de succès de l'événement de réponse de la comparaison sont plus faibles pour le niveau de référence du facteur (ou pour les niveaux supérieurs d'un prédicteur continu). Les valeurs éloignées de 1 représentent des degrés d'association plus importants.
Par exemple, pour un modèle comportant trois catégories de réponse (1, 2 et 3) et un prédicteur, le rapport des probabilités de succès indique les probabilités de succès pour la catégorie de résultats k par rapport à la catégorie de résultats utilisée comme événement de référence (3 dans le présent exemple). Vous trouverez ci-après la formule pour le rapport des probabilités de succès pour un prédicteur avec deux niveaux, a et b.
Terme | Description |
---|---|
k | catégorie de résultats |
L'intervalle de confiance du grand échantillon pour βi est le suivant :
β i + Zα /2* (erreur type)
Pour obtenir l'intervalle de confiance des rapports des probabilités de succès, utilisez un exposant pour les limites supérieure et inférieure de l'intervalle de confiance. L'intervalle indique l'étendue des probabilités de succès pour chaque variation d'unité du prédicteur.
Terme | Description |
---|---|
α | seuil de signification |
Matrice carrée avec les dimensions p +1 × (K – 1). La variance de chaque coefficient figure dans la cellule diagonale et la covariance de chaque paire de coefficients figure dans la cellule hors diagonale appropriée. La variance est l'erreur type du coefficient au carré.
La matrice de variance/covariance est asymptotique et provient de la dernière itération de la valeur inverse de la matrice d'informations. La matrice des deuxièmes dérivées partielles est utilisée pour obtenir la matrice de covariance.
Terme | Description |
---|---|
p | nombre de prédicteurs |
K | nombre de catégories dans la réponse |
Statistique récapitulative fondée sur les valeurs résiduelles de Pearson, qui indique le degré d'ajustement du modèle à vos données. La méthode de Pearson n'est pas utile lorsque le nombre de valeurs distinctes de la covariable est approximativement égal au nombre d'observations, mais elle est utile lorsque vous avez des observations répétées au même niveau de covariable. Les statistiques de test χ2 élevées et les valeurs de p faibles indiquent que le modèle peut ne pas s'ajuster correctement aux données.
La formule est la suivante :
où r = valeur résiduelle de Pearson, m = nombre d'essais dans la je combinaison de facteurs/covariables et π0 = valeur supposée pour la proportion.
Statistique récapitulative fondée sur les valeurs résiduelles de la somme des carrés d'écart, qui indique le degré d'ajustement du modèle à vos données. La somme des carrés d'écart n'est pas utile lorsque le nombre de valeurs distinctes de la covariable est approximativement égal au nombre d'observations, mais elle est utile lorsque vous avez des observations répétées au même niveau de covariable. Les valeurs élevées de D et les valeurs de p faibles indiquent que le modèle peut ne pas s'ajuster correctement aux données. Les degrés de liberté pour le test est (k - 1)*J − (p), où k représente le nombre de catégories de la réponse, J représente le nombre de combinaisons de facteurs/covariables et p représente le nombre de coefficients.
La formule est la suivante :
D =2 Σ yik log p ik− 2 Σ yik log π ik
où πik = probabilité de la ie observation pour la ke catégorie.