Un coefficient de régression décrit l'importance et le sens de la relation entre un prédicteur et la variable de réponse. Les coefficients sont les nombres par lesquels les valeurs du terme sont multipliées dans une équation de régression.
Utilisez le coefficient pour déterminer si la variation d'une variable de prévision augmente ou réduit la probabilité d'occurrence de l'événement. Le coefficient estimé associé à un prédicteur représente la variation de la fonction de liaison pour chaque variation d'une unité du prédicteur quand tous les autres prédicteurs sont maintenus constants. La relation entre le coefficient et la probabilité dépend de plusieurs aspects de l'analyse, notamment la fonction de liaison, l'événement de référence pour la réponse et les niveaux de référence pour les prédicteurs de catégorie du modèle. En général, les coefficients positifs augmentent la probabilité de l'événement tandis que les coefficients négatifs la réduisent. Un coefficient estimé proche de 0 implique que l'effet du prédicteur est réduit.
L'interprétation des coefficients estimés pour les prédicteurs de catégorie est faite par rapport au niveau de référence du prédicteur. Des coefficients positifs indiquent que l'événement a plus de chances d'avoir lieu à ce niveau du prédicteur qu'au niveau de référence du facteur. Des coefficients négatifs indiquent que l'événement a moins de chances d'avoir lieu à ce niveau du prédicteur qu'au niveau de référence.
La fonction de liaison logit fournit l'interprétation la plus naturelle des coefficients estimés et constitue donc la liaison par défaut dans Minitab. L'interprétation utilise le fait que les probabilités de succès d'un événement de référence sont égales à P(événement)/P(non-événement) et suppose que les autres prédicteurs restent constants. Plus le logarithme des probabilités de succès est important, plus l'événement de référence est probable. Ainsi, des coefficients positifs indiquent que la probabilité de l'événement augmente, tandis que des coefficients négatifs indiquent qu'elle diminue. Ci-après se trouve un résumé des règles d'interprétation pour les différents types de prédicteurs.
L'erreur type du coefficient estime la variabilité entre les estimations des coefficients que vous obtiendriez si vous préleviez des échantillons dans la même population de façon répétée. Le calcul suppose que l'effectif d'échantillon et les coefficients à estimer restent identiques même après plusieurs échantillonnages.
Vous pouvez utiliser l'erreur type du coefficient pour mesurer la précision de l'estimation du coefficient. Plus l'erreur type est petite, plus l'estimation est précise.
Ces intervalles de confiance (IC) sont des étendues de valeurs ayant de fortes chances de contenir la véritable valeur du coefficient pour chaque terme du modèle. Le calcul des intervalles de confiance utilise la loi normale. L'intervalle de confiance s'avère précis si l'effectif d'échantillon est assez important pour que la distribution du coefficient d'échantillon suive une loi normale.
Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Cependant, si vous prenez de nombreux échantillons aléatoires, un certain pourcentage des intervalles de confiance obtenus contiendra le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance contenant le paramètre est le niveau de confiance de l'intervalle.
Un intervalle de confiance permet d'obtenir une estimation du coefficient de population pour chaque terme du modèle.
Par exemple, avec un niveau de confiance de 95 %, vous pouvez être sûr à 95 % que l'intervalle de confiance comprend la valeur ou le coefficient de la population. L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, envisagez d'augmenter votre effectif d'échantillon.
La valeur de Z est une statistique pour les tests de Wald qui mesure le rapport entre le coefficient et son erreur type.
Minitab utilise la valeur de Z pour calculer la valeur de p, qui vous permet de déterminer si des termes sont significatifs et de choisir le modèle approprié. Le test de Wald s'avère précis lorsque l'effectif d'échantillon est assez important pour que la distribution des coefficients d'échantillons suive une loi normale.
Une valeur de Z suffisamment supérieure à 0 indique que l'estimation de coefficient est assez importante et précise pour être statistiquement différente de 0. Inversement, une valeur de Z proche de 0 indique que l'estimation de coefficient est trop petite ou imprécise pour que vous puissiez affirmer que le terme a un effet sur la réponse.
Les tests du tableau Somme des carrés d'écart sont des tests du rapport de vraisemblance. Les tests figurant dans l'affichage développé du tableau Coefficients sont des tests d'approximation de Wald. Les tests du rapport de vraisemblance sont plus exacts pour les petits échantillons que les tests d'approximation de Wald.
La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude.
Le facteur d'inflation de la variance (FIV) indique dans quelle mesure la variance d'un coefficient est augmentée par la multicolinéarité.
Utilisez le FIV pour décrire l'importance de la multicolinéarité dans une analyse de régression. La multicolinéarité est problématique car elle peut faire augmenter la variance des coefficients de régression, ce qui complique l'évaluation des conséquences de chacun des prédicteurs sur la réponse.
FIV | Multicolinéarité |
---|---|
FIV = 1 | Aucun |
1 < FIV < 5 | Modérément |
FIV > 5 | Elevée |
Pour plus d'informations sur la multicolinéarité et sur la façon d'atténuer ses effets, reportez-vous à la rubrique Multicolinéarité dans la régression.
Lorsque vous normalisez les variables continues, les coefficients représentent une variation d'une unité des variables normalisées. En général, vous normalisez les prédicteurs continus pour réduire la multicolinéarité ou placer les variables sur une échelle commune.
La manière dont vous utilisez les coefficients codés dépend de la méthode de normalisation. L'interprétation exacte des coefficients dépend également de certains aspects de l'analyse, comme la fonction de liaison. Les coefficients positifs rendent l'événement plus probable. Les coefficients négatifs rendent l'événement moins probable. Un coefficient estimé proche de 0 implique un faible effet du prédicteur.
Chaque coefficient représente la variation attendue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité sur l'échelle codée.
Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. Pour la température, le codage fait correspondre la valeur 0 à 50 degrés Celsius et la valeur 1 à 100 degrés Celsius. Pour la durée, le codage fait correspondre la valeur 0 à 30 secondes et la valeur 1 à 60 secondes. Le coefficient de la température représente une augmentation de 50 degrés Celsius. Le coefficient de la durée représente une augmentation de 30 secondes.
Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie d'un écart type.
Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. L'écart type de la température est 3,7 degrés Celsius. L'écart type de la durée est 18,3 secondes. Le coefficient de la température représente une augmentation de 3,7 degrés Celsius. Le coefficient de la durée représente une augmentation de 18,3 secondes.
Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité.
Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. Le coefficient de la température représente une augmentation de 1 degré Celsius. Le coefficient de la durée représente une augmentation de 1 seconde.
Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie d'un écart type.
Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. L'écart type de la température est 3,7 degrés Celsius. L'écart type de la durée est 18,3 secondes. Le coefficient de la température représente une augmentation de 3,7 degrés Celsius. Le coefficient de la durée représente une augmentation de 18,3 secondes.
Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie en fonction du diviseur.
Par exemple, un modèle utilise les mètres pour la longueur et les ampères pour le courant électrique. Le diviseur est 1 000. Le coefficient de la longueur représente une augmentation de 1 millimètre. Le coefficient du courant électrique représente une augmentation de 1 milliampère.
Chaque coefficient représente la variation attendue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité sur l'échelle codée.
Par exemple, un modèle utilise les degrés Celsius pour la température. Le codage fait correspondre la valeur 0 à 50 degrés Celsius et la valeur 1 à 100 degrés Celsius. Le coefficient de la température représente une augmentation de 50 degrés Celsius. Le coefficient de la température est 1,8. Lorsque la température augmente de 1 unité codée, elle augmente de 50 degrés et le logarithme népérien des probabilités de succès augmente de 1,8.
Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie d'un écart type.
Par exemple, un modèle utilise les degrés Celsius pour la température. L'écart type de la température est 3,7 degrés Celsius. Le coefficient codé pour la température est 1,4. Lorsque la température augmente de 1 unité codée, elle augmente de 3,7 degrés Celsius et le logarithme népérien des probabilités de succès augmente de 1,4.
Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que le prédicteur varie de 1 unité.
Par exemple, un modèle utilise les degrés Celsius pour la température. Le coefficient de la température représente une augmentation de 1 degré Celsius. Le coefficient pour la température est 2,3. Lorsque la température augmente de 1 unité codée, elle augmente de 1 degré Celsius et le logarithme népérien des probabilités de succès augmente de 2,3.
Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie d'un écart type.
Par exemple, un modèle utilise les degrés Celsius pour la température. L'écart type de la température est 3,7 degrés Celsius. Le coefficient de la température est 1,4. Lorsque la température augmente de 1 unité codée, elle augmente de 3,7 degrés Celsius et le logarithme népérien des probabilités de succès augmente de 1,4.
Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie en fonction du diviseur.
Par exemple, un modèle utilise les mètres pour la longueur et les ampères pour le courant électrique. Le diviseur est 1 000. Le coefficient de la longueur représente une augmentation de 1 millimètre. Le coefficient de la longueur est 5,6. Lorsque la longueur augmente de 1 unité codée, elle augmente de 1 millimètre et le logarithme népérien des probabilités de succès augmente de 5,6. Le coefficient du courant électrique représente une augmentation de 1 milliampère.
Pour la régression logistique binaire, Minitab affiche deux types d'équations de régression. La première équation lie la probabilité de l'événement à la réponse transformée. La forme de la première équation dépend de la fonction de liaison.
La deuxième équation lie les prédicteurs à la réponse transformée. Si le modèle contient des prédicteurs continus et de catégorie, la deuxième équation peut être séparée pour chaque combinaison de catégories. Pour plus d'informations concernant le choix du nombre d'équations à afficher, reportez-vous à la rubrique Sélectionnez les résultats à afficher pour Ajuster le modèle logistique binaire et Regressão Logística Binária.
Utilisez les équations pour examiner la relation entre les variables de réponse et de prédiction.
La première équation montre la relation entre la probabilité et la réponse transformée selon la fonction de liaison logit.
Les deuxièmes équations indiquent la façon dont le revenu et le fait qu'un client ait des enfants ou non affectent la réponse transformée. Lorsque le client n'a pas d'enfants, le coefficient du revenu est d'environ 0,04. Lorsque le client a des enfants, ce coefficient est d'environ 0,02. Pour ces équations, plus le client a un revenu élevé, plus il est susceptible d'acheter le produit. Cependant, le revenu a un impact plus important sur l'achat du produit par le client lorsque celui-ci n'a pas d'enfants.
P(1) | = | exp(Y')/(1 + exp(Y')) |
---|
Enfants | |||
---|---|---|---|
Non | Y' | = | -3,549 + 0,04296 Revenu |
Oui | Y' | = | -1,076 + 0,01565 Revenu |
Si votre modèle n'est pas hiérarchique et que vous avez normalisé les prédicteurs continus, l'équation de régression est en unités codées. Pour plus d'informations, consultez la section sur les coefficients codés. Pour plus d'informations concernant la hiérarchie, consultez la rubrique Que sont les modèles hiérarchiques ?.