Interprétation des résultats principaux pour la fonction Ajuster le modèle logistique binaire

Suivez la procédure ci-dessous pour interpréter un modèle logistique binaire. Les résultats principaux incluent la valeur de p, les coefficients, le R2 et les tests d'adéquation de l'ajustement.

Etape 1 : Déterminer si l'association entre la réponse et le terme est statistiquement significative

Pour déterminer si l'association entre la réponse et chacun des termes du modèle est statistiquement significative, comparez la valeur de p du terme à votre seuil de signification pour évaluer l'hypothèse nulle. L'hypothèse nulle est qu'il n'existe aucune association entre le terme et la réponse. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique un risque de 5 % de conclure à tort qu'il existe une association.
Valeur de p ≤ α : l'association est statistiquement significative.
Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme.
Valeur de p > α : l'association n'est pas statistiquement significative.
Si la valeur de p est supérieure au seuil de signification, vous ne pouvez pas conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme. Il est sans doute nécessaire de réajuster le modèle sans le terme.
Si plusieurs prédicteurs ne présentent aucune association statistiquement significative avec la réponse, vous pouvez réduire le modèle en supprimant ces termes un par un. Pour plus d'informations sur la suppression de termes d'un modèle, reportez-vous à la rubrique Réduction du modèle.
Si un terme d'un modèle est statistiquement significatif, l'interprétation dépend du type de terme concerné. Les interprétations sont les suivantes :
  • Si un prédicteur continu est significatif, vous pouvez en conclure que le coefficient de ce prédicteur est différent de zéro.
  • Si un prédicteur de catégorie est significatif, vous pouvez en conclure que tous les niveaux du facteur n'ont pas la même probabilité.
  • Si un terme d'interaction est significatif, vous pouvez en conclure que la relation entre un prédicteur et la probabilité de l'événement dépend des autres prédicteurs du terme.
  • Si un terme polynomial est significatif, vous pouvez en conclure que la relation entre un prédicteur et la probabilité de l'événement dépend de la grandeur du prédicteur.
Tableau des sommes des carrés d'écart Somme des carrés d'écart Moyenne Valeur Source DL ajustée ajustée Khi deux de p Régression 1 22,7052 22,7052 22,71 0,000 Dose (mg) 1 22,7052 22,7052 22,71 0,000 Erreur 4 0,9373 0,2343 Total 5 23,6425
Coefficients Terme Coeff Coef ErT FIV Constante -5,25 1,99 Dose (mg) 3,63 1,30 1,00
Rapports des probabilités de succès pour les prédicteurs continus Rapport des probabilités de succès IC à 95 % Dose (mg) 37,5511 (2,9645; 475,6528)
Résultats principaux : valeur de p, coefficients

Dans ces résultats, le dosage est statistiquement significatif au seuil de signification de 0,05. Vous pouvez conclure que la variation du dosage entraîne une variation de la probabilité que l'événement se produise.

Etudiez le coefficient pour déterminer si la variation d'une variable de prévision augmente ou réduit la probabilité d'occurrence de l'événement. La relation entre le coefficient et la probabilité dépend de plusieurs aspects de l'analyse, notamment la fonction de liaison. Généralement, des coefficients positifs indiquent que l'événement devient plus probable quand la valeur du prédicteur augmente. Des coefficients négatifs indiquent que l'événement devient moins probable quand la valeur du prédicteur diminue. Pour plus d'informations, reportez-vous à la rubrique Coefficients et équation de régression pour la fonction Ajuster le modèle logistique binaire.

Le coefficient pour Dose est de 3,63, ce qui suggère que des dosages plus élevés sont associés à de plus grandes probabilités que l'événement se produira.

Si un terme d'interaction est statistiquement significatif, la relation entre un prédicteur et la réponse diffère selon le niveau de l'autre prédicteur. Dans ce cas, vous ne devez pas interpréter les effets principaux sans prendre en compte l'effet d'interaction. Pour mieux comprendre les effets principaux, les effets d'interaction et la courbure de votre modèle, reportez-vous aux rubriques Diagrammes factoriels et Optimisation des réponses.

Etape 2 : Déterminer les effets des prédicteurs

Le rapport des probabilités de succès permet de déterminer l'effet d'un prédicteur. L'interprétation du rapport des probabilités de succès varie selon que le prédicteur est de catégorie ou continu. Minitab calcule les rapports des probabilités de succès lorsque le modèle utilise la fonction de liaison logit.
Rapports des probabilités de succès pour les prédicteurs continus

Les rapports de probabilités de succès supérieurs à 1 indiquent que l'événement est plus susceptible de se produire à mesure que le prédicteur augmente. Les rapports de probabilités de succès inférieurs à 1 indiquent que l'événement est moins susceptible de se produire à mesure que le prédicteur augmente.

Régression logistique binaire : Aucune bactérie en fonction de Dose (mg)

Rapports des probabilités de succès pour les prédicteurs continus Rapport des probabilités Incrément de succès IC à 95 % Dose (mg) 0,5 6,1279 (1,7218; 21,8095)
Résultat principal : rapport des probabilités de succès

Dans ces résultats, le modèle utilise le dosage d'un médicament pour prévoir la présence ou l'absence de bactérie chez des sujets adultes. Chaque comprimé contenant une dose de 0,5 mg, les chercheurs utilisent une variation d'unité de 0,5 mg. Le rapport des probabilités de succès est environ de 6. Pour chaque comprimé supplémentaire pris par un adulte, les probabilités de succès concernant le fait qu'un patient n'ait pas la bactérie sont multipliées par 6.

Rapports des probabilités de succès pour les prédicteurs de catégorie

Pour les prédicteurs de catégorie, le rapport des probabilités de succès compare les probabilités qu'un événement se produise à deux niveaux différents du prédicteur. Minitab configure la comparaison en répertoriant les niveaux dans deux colonnes, Niveau A et Niveau B. Le niveau B est le niveau de référence du facteur. Les rapports des probabilités de succès supérieurs à 1 indiquent que l'événement est moins susceptible de se produire au niveau B. Les rapports des probabilités de succès inférieurs à 1 indiquent que l'événement est plus susceptible de se produire au niveau B. Pour plus d'informations sur la sélection du niveau de référence pour l'analyse, consultez la rubrique Spécifier le schéma de codage pour la fonction Ajuster le modèle logistique binaire.

Régression logistique binaire : Cancellation en fonction de Mois

Rapports des probabilités de succès pour les prédicteurs de catégorie Rapport des probabilités Niveau A Niveau B de succès IC à 95 % Mois 2 1 1,1250 (0,0600; 21,0867) 3 1 3,3750 (0,2897; 39,3222) 4 1 7,7143 (0,7460; 79,7712) 5 1 2,2500 (0,1107; 45,7226) 6 1 6,0000 (0,5322; 67,6495) 3 2 3,0000 (0,2547; 35,3340) 4 2 6,8571 (0,6556; 71,7201) 5 2 2,0000 (0,0976; 41,0034) 6 2 5,3333 (0,4679; 60,7972) 4 3 2,2857 (0,4103; 12,7323) 5 3 0,6667 (0,0514; 8,6389) 6 3 1,7778 (0,2842; 11,1200) 5 4 0,2917 (0,0252; 3,3719) 6 4 0,7778 (0,1464; 4,1326) 6 5 2,6667 (0,2124; 33,4861) Rapport des probabilités de succès pour le niveau A par rapport au niveau B
Résultat principal : rapport des probabilités de succès

Dans ces résultats, le prédicteur de catégorie est le premier mois de la haute saison d'un hôtel. La réponse correspond à l'annulation ou non d'une réservation par un client. Le plus grand rapport des probabilités de succès est d'environ 8, lorsque le niveau A est le mois 4 et le niveau B est le mois 1. Cela indique que la probabilité qu'un client annule une réservation pendant le mois 4 est environ 8 fois supérieure à la probabilité qu'un client annule une réservation pendant le mois 1.

Pour plus d'informations, reportez-vous à la rubrique Rapports des probabilités de succès pour la fonction Ajuster le modèle logistique binaire.

Etape 3 : Déterminer l'ajustement du modèle à vos données

Pour déterminer l'ajustement du modèle aux données, étudiez les statistiques dans le tableau Récapitulatif du modèle.

Pour la régression logistique binaire, le format des données a des conséquences sur la plupart des statistiques récapitulatives du modèle et d'adéquation de l'ajustement. L'AIC et le test de Hosmer-Lemeshow ne sont pas influencés par le format des données et leurs résultats sont donc comparables quel que soit le format. Pour plus d'informations, reportez-vous à la rubrique Influence du format des données sur l'ajustement dans la régression logistique binaire.

R carré de la somme des carrés d'écart

Plus le R2 de la somme des carrés d'écart est élevé, plus le modèle est ajusté à vos données. Le R2 de la somme des carrés d'écart est toujours compris entre 0 et 100 %.

Le R2 de la somme des carrés d'écart augmente toujours lorsque vous ajoutez des prédicteurs à un modèle. Par exemple, le meilleur modèle à 5 prédicteurs aura toujours une valeur R2 au moins aussi élevée que celle du meilleur modèle à 4 prédicteurs. Par conséquent, le R2 de la somme des carrés d'écart est surtout utile pour comparer des modèles de même taille.

Pour la régression logistique binaire, le format des données a un impact sur le R2 de la somme des carrés d'écart. Celui-ci est généralement plus élevé pour les données qui sont au format événement/essai. Les R2 de la somme des carrés d'écart sont comparables uniquement entre des modèles qui utilisent le même format de données.

La valeur R2 de la somme des carrés d'écart n'est qu'une des mesures de l'ajustement du modèle aux données. Même si un modèle a une valeur R2 élevée, vous devez consulter les graphiques des valeurs résiduelles et les tests d'adéquation de l'ajustement pour évaluer l'ajustement du modèle aux données.

R carré (ajust) de la somme des carrés d'écart

Pour comparer des modèles n'ayant pas le même nombre de prédicteurs, utilisez le R2 ajusté de la somme des carrés d'écart. Celui-ci augmente toujours lorsque vous ajoutez un prédicteur au modèle. Le R2 ajusté de la somme des carrés d'écart intègre le nombre de prédicteurs dans le modèle pour vous aider à choisir le modèle correct.

AIC

Utilisez l'AIC pour comparer différents modèles. Plus l'AIC est faible, plus le modèle est ajusté aux données. Cependant, le modèle dont l'AIC est le plus faible pour un ensemble de prédicteurs n'est pas forcément bien ajusté aux données. Vous devez aussi utiliser les graphiques des valeurs résiduelles et les tests d'adéquation de l'ajustement pour évaluer l'ajustement du modèle aux données.

Récapitulatif du modèle R carré R carré de (ajust) de la somme la somme des carrés des carrés d'écart d'écart AIC 96,04% 91,81% 21,68
Résultats principaux : R carré de la somme des carrés d'écart, R carré (ajust) de la somme des carrés d'écart, AIC

Dans ces résultats, le modèle explique 96,04 % de la somme des carrés d'écart dans la variable de réponse. Pour ces données, la valeur R2 de la somme des carrés d'écart indique que le modèle fournit un bon ajustement aux données. Si des modèles supplémentaires sont ajustés avec d'autres prédicteurs, utilisez la valeur R2 ajustée de la somme des carrés d'écart et la valeur AIC pour comparer l'ajustement des modèles aux données.

Etape 4 : Déterminer si le modèle n'est pas ajusté aux données

Utilisez des tests d'adéquation de l'ajustement pour déterminer si les probabilités prévues diffèrent des probabilités observées d'une façon que ne prévoit pas la loi binomiale. Si la valeur de p pour le test d'adéquation de l'ajustement est inférieure au seuil de signification sélectionné, les probabilités prévues diffèrent des probabilités observées d'une façon que ne prévoit pas la loi binomiale. Cette liste énumère les raisons fréquentes de l'écart :
  • Fonction de liaison incorrecte
  • Terme d'ordre supérieur omis pour les variables du modèle
  • Prédicteur omis non présent dans le modèle
  • Surdispersion

Si l'écart est statistiquement significatif, vous pouvez essayer une autre fonction de liaison ou modifier les termes du modèle.

Pour la régression logistique binaire, le format des données a un impact sur la valeur de p, car il modifie le nombre d'essais par ligne.

  • Somme des carrés d'écart : La valeur de p fournie par le test de la somme des carrés d'écart a tendance a être plus faible pour les données qui sont au format réponse binaire/effectif que pour celles au format événement/essai. Pour les données au format réponse binaire/effectif, les résultats du test de Hosmer-Lemeshow sont plus fiables.
  • Pearson : L'approximation de la loi du Khi deux utilisée par le test de Pearson est inexacte lorsque le nombre d'événements attendu par ligne est faible. Par conséquent, le test d'ajustement de Pearson est inexact lorsque les données sont au format réponse binaire/effectif.
  • Hosmer-Lemeshow : Le test de Hosmer-Lemeshow ne dépend pas du nombre d'essais par ligne dans les données, contrairement aux autres tests d'adéquation de l'ajustement. Lorsque les données présentent peu d'essais par ligne, le test de Hosmer-Lemeshow est un indicateur plus fiable de l'ajustement du modèle aux données.
Informations de réponse Nom Variable Valeur Dénombrement d'événement Evénement Evénement 160 Evénement Non-événement 340 Essai Total 500
Tests d'adéquation de l'ajustement Valeur Test DL Khi deux de p Somme des carrés d'écart 2 3,78 0,151 Pearson 2 3,76 0,152 Hosmer-Lemeshow 3 3,76 0,288
Résultats principaux pour le format événement/essai : informations sur la réponse, test de somme des carrés d'écart, test de Pearson, test de Hosmer-Lemeshow

Dans ces résultats, le tableau des informations de réponse indique Evénement et Essai dans la colonne Variable. Ces libellés indiquent que les données sont au format événement/essai. Tous les tests d'adéquation de l'ajustement ont des valeurs de p supérieures au seuil de signification habituel de 0,05. Les tests ne permettent pas de conclure que les probabilités prévues diffèrent des probabilités observées d'une façon non prévue par la loi binomiale.

Informations de réponse Variable Valeur Dénombrement Y Evénement 160 (Evénement) Non-événement 340 Total 500
Tests d'adéquation de l'ajustement Valeur Test DL Khi deux de p Somme des carrés d'écart 497 552,03 0,044 Pearson 497 504,42 0,399 Hosmer-Lemeshow 3 3,76 0,288
Résultats principaux pour le format réponse binaire/effectif : informations sur la réponse, test de somme des carrés d'écart, test de Pearson, test de Hosmer-Lemeshow

Dans ces résultats pour les mêmes données, le tableau des informations de réponse affiche Y dans la colonne Variable. Ce libellé indique que les données sont au format réponse binaire/effectif. Le test de la somme des carrés d'écart a une valeur de p inférieure au seuil de signification habituel de 0,05, mais le test de Hosmer-Lemeshow est le plus fiable. Le test de Hosmer-Lemeshow ne permet pas de conclure que les probabilités prévues diffèrent des probabilités observées d'une façon non prévue par la loi binomiale.

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique