Coefficients et équation de régression pour Ajuster le modèle logistique binaire et Regressão Logística Binária

Vous trouverez des définitions et des conseils d’interprétation pour chaque statistique dans le tableau des coefficients et l’équation de régression.

Coeff

Un coefficient de régression décrit l'importance et le sens de la relation entre un prédicteur et la variable de réponse. Les coefficients sont les nombres par lesquels les valeurs du terme sont multipliées dans une équation de régression.

Interprétation

Utilisez le coefficient pour déterminer si la variation d'une variable de prévision augmente ou réduit la probabilité d'occurrence de l'événement. Le coefficient estimé associé à un prédicteur représente la variation de la fonction de liaison pour chaque variation d'une unité du prédicteur quand tous les autres prédicteurs sont maintenus constants. La relation entre le coefficient et la probabilité dépend de plusieurs aspects de l'analyse, notamment la fonction de liaison, l'événement de référence pour la réponse et les niveaux de référence pour les prédicteurs de catégorie du modèle. En général, les coefficients positifs augmentent la probabilité de l'événement tandis que les coefficients négatifs la réduisent. Un coefficient estimé proche de 0 implique que l'effet du prédicteur est réduit.

L'interprétation des coefficients estimés pour les prédicteurs de catégorie est faite par rapport au niveau de référence du prédicteur. Des coefficients positifs indiquent que l'événement a plus de chances d'avoir lieu à ce niveau du prédicteur qu'au niveau de référence du facteur. Des coefficients négatifs indiquent que l'événement a moins de chances d'avoir lieu à ce niveau du prédicteur qu'au niveau de référence.

Interprétation de la fonction de liaison logit

La fonction de liaison logit fournit l'interprétation la plus naturelle des coefficients estimés et constitue donc la liaison par défaut dans Minitab. L'interprétation utilise le fait que les probabilités de succès d'un événement de référence sont égales à P(événement)/P(non-événement) et suppose que les autres prédicteurs restent constants. Plus le logarithme des probabilités de succès est important, plus l'événement de référence est probable. Ainsi, des coefficients positifs indiquent que la probabilité de l'événement augmente, tandis que des coefficients négatifs indiquent qu'elle diminue. Ci-après se trouve un résumé des règles d'interprétation pour les différents types de prédicteurs.

Prédicteurs continus
Le coefficient d'un prédicteur continu est la variation estimée du logarithme népérien des probabilités de succès pour l'événement de référence à chaque augmentation d'une unité du prédicteur. Par exemple, si le coefficient du temps, en secondes, est de 1,4, le logarithme népérien des probabilités de succès augmente de 1,4 pour chaque seconde supplémentaire.
On peut également utiliser les estimations de coefficient pour calculer les rapports des probabilités ou le rapport entre deux probabilités de succès. Pour calculer le rapport des probabilités de succès, effectuez une exponentiation du coefficient d'un prédicteur. Le résultat est le rapport des probabilités de succès pour une valeur de prédicteur de x+1 sur une valeur de prédicteur de x. Par exemple, si le rapport des probabilités de succès pour une masse en kilogrammes est 0,95, pour chaque kilogramme supplémentaire, la probabilité de l'événement se réduit d'environ 5 %.
Pour les prédicteurs continus, l'interprétation des probabilités de succès peut être plus révélatrice que l'interprétation du rapport des probabilités de succès.
Prédicteurs de catégorie avec codage 1, 0
Le coefficient est la variation estimée du logarithme népérien des probabilités de succès lorsque l'on passe du niveau de référence au niveau correspondant au coefficient. Par exemple, une variable de catégorie dispose des niveaux Rapide et Lent, et le niveau de référence est Lent. Si le coefficient associé au niveau Rapide est de 1,3, alors, lorsque la variable passe de Lent à Rapide, le logarithme népérien de probabilités de succès de l'événement augmente de 1,3.
On peut également utiliser les estimations de coefficient pour calculer le rapport des probabilités de succès ou le rapport entre deux probabilités. Pour calculer le rapport des probabilités de succès, effectuez une exponentiation du coefficient d'un niveau. Le résultat est le rapport de probabilité de succès pour le niveau étudié sur le niveau de référence. Par exemple, imaginons le cas d'une variable de catégorie ayant les niveaux Dur et Mou, où Mou est le niveau de référence. Si le rapport des probabilités de succès pour Dur est de 0,5, le passage de Mou à Dur réduit la probabilité de succès de l'événement de 50 %.
Prédicteurs de catégorie avec codage 1, 0, -1
Le coefficient est la variation estimée du logarithme népérien des probabilités de succès lorsque vous passez de la moyenne du logarithme népérien des probabilités de succès au niveau du coefficient. Par exemple, une variable de catégorie a les niveaux Avant évolution et Après évolution. Si le coefficient pour Après évolution est de -2,1, le logarithme népérien des probabilités de succès de l'événement diminue de 2,1 par rapport à la moyenne lorsque la variable est au niveau Après évolution.
On peut également utiliser les estimations de coefficient pour calculer les rapports de probabilités de succès. Pour trouver la valeur à mettre en exponentiation, soustrayez les coefficients à comparer. Par exemple, une variable de catégorie a les niveaux Rouge, Jaune et Vert. Pour calculer le rapport des probabilités de succès pour Rouge et Jaune, soustrayez le coefficient de Rouge au coefficient de Jaune, puis effectuez une exponentiation du résultat. Si le rapport des probabilités de succès est 1,02, le passage du niveau Rouge au niveau Jaune augmente les probabilités de succès de l'événement de 2 %.

Coef ErT

L'erreur type du coefficient estime la variabilité entre les estimations des coefficients que vous obtiendriez si vous préleviez des échantillons dans la même population de façon répétée. Le calcul suppose que l'effectif d'échantillon et les coefficients à estimer restent identiques même après plusieurs échantillonnages.

Interprétation

Vous pouvez utiliser l'erreur type du coefficient pour mesurer la précision de l'estimation du coefficient. Plus l'erreur type est petite, plus l'estimation est précise.

Intervalle de confiance pour le coefficient (IC de 95 %)

Ces intervalles de confiance (IC) sont des étendues de valeurs ayant de fortes chances de contenir la véritable valeur du coefficient pour chaque terme du modèle. Le calcul des intervalles de confiance utilise la loi normale. L'intervalle de confiance s'avère précis si l'effectif d'échantillon est assez important pour que la distribution du coefficient d'échantillon suive une loi normale.

Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Cependant, si vous prenez de nombreux échantillons aléatoires, un certain pourcentage des intervalles de confiance obtenus contiendra le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance contenant le paramètre est le niveau de confiance de l'intervalle.

L'intervalle de confiance est composé de deux parties :
Estimation ponctuelle
Cette valeur unique estime un paramètre de population à l'aide de vos données échantillons. L'intervalle de confiance est centré sur cette estimation ponctuelle.
Marge d'erreur
La marge d'erreur définit la largeur de l'intervalle de confiance et est déterminée par la variabilité observée dans l'échantillon, l'effectif de l'échantillon et le niveau de confiance. Pour calculer la limite supérieure de l'intervalle de confiance, la marge d'erreur est ajoutée à l'estimation ponctuelle. Pour calculer la limite inférieure de l'intervalle de confiance, la marge d'erreur est soustraite de l'estimation ponctuelle.

Interprétation

Un intervalle de confiance permet d'obtenir une estimation du coefficient de population pour chaque terme du modèle.

Par exemple, avec un niveau de confiance de 95 %, vous pouvez être sûr à 95 % que l'intervalle de confiance comprend la valeur ou le coefficient de la population. L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, envisagez d'augmenter votre effectif d'échantillon.

Valeur de Z

La valeur de Z est une statistique pour les tests de Wald qui mesure le rapport entre le coefficient et son erreur type.

Interprétation

Minitab utilise la valeur de Z pour calculer la valeur de p, qui vous permet de déterminer si des termes sont significatifs et de choisir le modèle approprié. Le test de Wald s'avère précis lorsque l'effectif d'échantillon est assez important pour que la distribution des coefficients d'échantillons suive une loi normale.

Une valeur de Z suffisamment supérieure à 0 indique que l'estimation de coefficient est assez importante et précise pour être statistiquement différente de 0. Inversement, une valeur de Z proche de 0 indique que l'estimation de coefficient est trop petite ou imprécise pour que vous puissiez affirmer que le terme a un effet sur la réponse.

Les tests du tableau Somme des carrés d'écart sont des tests du rapport de vraisemblance. Les tests figurant dans l'affichage développé du tableau Coefficients sont des tests d'approximation de Wald. Les tests du rapport de vraisemblance sont plus exacts pour les petits échantillons que les tests d'approximation de Wald.

Valeur de p

La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude.

Interprétation

Pour déterminer si l'association entre la réponse et chacun des termes du modèle est statistiquement significative, comparez la valeur de p du terme à votre seuil de signification pour évaluer l'hypothèse nulle. L'hypothèse nulle est que le coefficient du terme est égal à zéro, ce qui implique qu'il n'existe aucune association entre le terme et la réponse. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique un risque de 5 % de conclure à tort qu'il existe une association.
Valeur de p ≤ α : l'association est statistiquement significative
Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme.
Valeur de p > α : l'association n'est pas statistiquement significative
Si la valeur de p est supérieure au seuil de signification, vous ne pouvez pas conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme. Il est sans doute nécessaire de réajuster le modèle sans le terme.
Si plusieurs prédicteurs ne présentent aucune association statistiquement significative avec la réponse, vous pouvez réduire le modèle en supprimant ces termes un par un. Pour plus d'informations sur la suppression de termes d'un modèle, reportez-vous à la rubrique Réduction du modèle.
Si un terme d'un modèle est statistiquement significatif, l'interprétation dépend du type de terme concerné. Les interprétations sont les suivantes :
  • Si un prédicteur continu est significatif, vous pouvez en conclure que le coefficient de ce prédicteur est différent de zéro.
  • Si un prédicteur de catégorie est significatif, la conclusion dépend du codage de la variable de catégorie. Avec un codage (0, 1), vous pouvez conclure que la probabilité correspondant à ce niveau est différente de la probabilité du niveau de référence. Avec un codage (-1, 0, +1), vous pouvez conclure que la probabilité pour ce niveau est différente de la probabilité de référence.
  • Si un terme d'interaction est significatif, vous pouvez en conclure que la relation entre un prédicteur et la probabilité de l'événement dépend des autres prédicteurs du terme.
  • Si un terme polynomial est significatif, vous pouvez en conclure que la relation entre un prédicteur et la probabilité de l'événement dépend de la grandeur du prédicteur.

FIV

Le facteur d'inflation de la variance (FIV) indique dans quelle mesure la variance d'un coefficient est augmentée par la multicolinéarité.

Interprétation

Utilisez le FIV pour décrire l'importance de la multicolinéarité dans une analyse de régression. La multicolinéarité est problématique car elle peut faire augmenter la variance des coefficients de régression, ce qui complique l'évaluation des conséquences de chacun des prédicteurs sur la réponse.

Suivez les règles suivantes pour interpréter le FIV :
FIV Multicolinéarité
FIV = 1 Aucun
1 < FIV < 5 Modérément
FIV > 5 Elevée
Des valeurs de FIV supérieures à 5 suggèrent que les coefficients de régression sont mal estimés en raison d'une importante multicolinéarité.

Pour plus d'informations sur la multicolinéarité et sur la façon d'atténuer ses effets, reportez-vous à la rubrique Multicolinéarité dans la régression.

Coefficients codés

Lorsque vous normalisez les variables continues, les coefficients représentent une variation d'une unité des variables normalisées. En général, vous normalisez les prédicteurs continus pour réduire la multicolinéarité ou placer les variables sur une échelle commune.

Interprétation

La manière dont vous utilisez les coefficients codés dépend de la méthode de normalisation. L'interprétation exacte des coefficients dépend également de certains aspects de l'analyse, comme la fonction de liaison. Les coefficients positifs rendent l'événement plus probable. Les coefficients négatifs rendent l'événement moins probable. Un coefficient estimé proche de 0 implique un faible effet du prédicteur.

Indiquer les niveaux faible et élevé à coder comme −1 et +1

Chaque coefficient représente la variation attendue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité sur l'échelle codée.

Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. Pour la température, le codage fait correspondre la valeur 0 à 50 degrés Celsius et la valeur 1 à 100 degrés Celsius. Pour la durée, le codage fait correspondre la valeur 0 à 30 secondes et la valeur 1 à 60 secondes. Le coefficient de la température représente une augmentation de 50 degrés Celsius. Le coefficient de la durée représente une augmentation de 30 secondes.

Soustraire la moyenne, puis diviser par l'écart type

Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie d'un écart type.

Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. L'écart type de la température est 3,7 degrés Celsius. L'écart type de la durée est 18,3 secondes. Le coefficient de la température représente une augmentation de 3,7 degrés Celsius. Le coefficient de la durée représente une augmentation de 18,3 secondes.

Soustraire la moyenne

Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité.

Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. Le coefficient de la température représente une augmentation de 1 degré Celsius. Le coefficient de la durée représente une augmentation de 1 seconde.

Diviser par l'écart type

Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie d'un écart type.

Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. L'écart type de la température est 3,7 degrés Celsius. L'écart type de la durée est 18,3 secondes. Le coefficient de la température représente une augmentation de 3,7 degrés Celsius. Le coefficient de la durée représente une augmentation de 18,3 secondes.

Soustraire une valeur spécifiée et diviser par une autre

Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie en fonction du diviseur.

Par exemple, un modèle utilise les mètres pour la longueur et les ampères pour le courant électrique. Le diviseur est 1 000. Le coefficient de la longueur représente une augmentation de 1 millimètre. Le coefficient du courant électrique représente une augmentation de 1 milliampère.

Interprétation de la fonction de liaison logit

La fonction de liaison logit fournit l'interprétation la plus naturelle des coefficients estimés et constitue donc la liaison par défaut dans Minitab. Pour la fonction de liaison logit, la variable de réponse transformée est le logarithme népérien des probabilités de succès pour l'événement. Un récapitulatif des interprétations des différentes méthodes de normalisation est proposé ci-après.
Indiquer les niveaux faible et élevé à coder comme −1 et +1

Chaque coefficient représente la variation attendue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité sur l'échelle codée.

Par exemple, un modèle utilise les degrés Celsius pour la température. Le codage fait correspondre la valeur 0 à 50 degrés Celsius et la valeur 1 à 100 degrés Celsius. Le coefficient de la température représente une augmentation de 50 degrés Celsius. Le coefficient de la température est 1,8. Lorsque la température augmente de 1 unité codée, elle augmente de 50 degrés et le logarithme népérien des probabilités de succès augmente de 1,8.

Soustraire la moyenne, puis diviser par l'écart type

Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie d'un écart type.

Par exemple, un modèle utilise les degrés Celsius pour la température. L'écart type de la température est 3,7 degrés Celsius. Le coefficient codé pour la température est 1,4. Lorsque la température augmente de 1 unité codée, elle augmente de 3,7 degrés Celsius et le logarithme népérien des probabilités de succès augmente de 1,4.

Soustraire la moyenne

Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que le prédicteur varie de 1 unité.

Par exemple, un modèle utilise les degrés Celsius pour la température. Le coefficient de la température représente une augmentation de 1 degré Celsius. Le coefficient pour la température est 2,3. Lorsque la température augmente de 1 unité codée, elle augmente de 1 degré Celsius et le logarithme népérien des probabilités de succès augmente de 2,3.

Diviser par l'écart type

Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie d'un écart type.

Par exemple, un modèle utilise les degrés Celsius pour la température. L'écart type de la température est 3,7 degrés Celsius. Le coefficient de la température est 1,4. Lorsque la température augmente de 1 unité codée, elle augmente de 3,7 degrés Celsius et le logarithme népérien des probabilités de succès augmente de 1,4.

Soustraire une valeur spécifiée et diviser par une autre

Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie en fonction du diviseur.

Par exemple, un modèle utilise les mètres pour la longueur et les ampères pour le courant électrique. Le diviseur est 1 000. Le coefficient de la longueur représente une augmentation de 1 millimètre. Le coefficient de la longueur est 5,6. Lorsque la longueur augmente de 1 unité codée, elle augmente de 1 millimètre et le logarithme népérien des probabilités de succès augmente de 5,6. Le coefficient du courant électrique représente une augmentation de 1 milliampère.

Equation de régression

Pour la régression logistique binaire, Minitab affiche deux types d'équations de régression. La première équation lie la probabilité de l'événement à la réponse transformée. La forme de la première équation dépend de la fonction de liaison.

La deuxième équation lie les prédicteurs à la réponse transformée. Si le modèle contient des prédicteurs continus et de catégorie, la deuxième équation peut être séparée pour chaque combinaison de catégories. Pour plus d'informations concernant le choix du nombre d'équations à afficher, reportez-vous à la rubrique Sélectionnez les résultats à afficher pour Ajuster le modèle logistique binaire et Regressão Logística Binária.

Interprétation

Utilisez les équations pour examiner la relation entre les variables de réponse et de prédiction.

Par exemple, un modèle destiné à prévoir si un client achète un produit contient les termes suivants :
  • Le revenu du client
  • Si le client a des enfants
  • L'interaction entre les deux prédicteurs

La première équation montre la relation entre la probabilité et la réponse transformée selon la fonction de liaison logit.

Les deuxièmes équations indiquent la façon dont le revenu et le fait qu'un client ait des enfants ou non affectent la réponse transformée. Lorsque le client n'a pas d'enfants, le coefficient du revenu est d'environ 0,04. Lorsque le client a des enfants, ce coefficient est d'environ 0,02. Pour ces équations, plus le client a un revenu élevé, plus il est susceptible d'acheter le produit. Cependant, le revenu a un impact plus important sur l'achat du produit par le client lorsque celui-ci n'a pas d'enfants.

Equation de régression en unités non codées

P(1)=exp(Y')/(1 + exp(Y'))
Enfants
NonY'=-3,549 + 0,04296 Revenu
       
OuiY'=-1,076 + 0,01565 Revenu

Si votre modèle n'est pas hiérarchique et que vous avez normalisé les prédicteurs continus, l'équation de régression est en unités codées. Pour plus d'informations, consultez la section sur les coefficients codés. Pour plus d'informations concernant la hiérarchie, consultez la rubrique Que sont les modèles hiérarchiques ?.