Un coefficient de régression décrit l'importance et le sens de la relation entre un prédicteur et la variable de réponse. Les coefficients sont les nombres par lesquels les valeurs du terme sont multipliées dans une équation de régression.
Utilisez le coefficient pour déterminer si la variation d'une variable de prévision augmente ou réduit la probabilité d'occurrence de l'événement. Le coefficient estimé associé à un prédicteur représente la variation de la fonction de liaison pour chaque variation d'une unité du prédicteur quand tous les autres prédicteurs sont maintenus constants. La relation entre le coefficient et le nombre d'événements dépend de plusieurs aspects de l'analyse, notamment la fonction de liaison et les niveaux de référence des prédicteurs de catégorie du modèle. En général, les coefficients positifs augmentent la probabilité de l'événement tandis que les coefficients négatifs la réduisent. Un coefficient estimé proche de zéro implique que l'effet du prédicteur est réduit ou inexistant.
L'interprétation des coefficients estimés pour les prédicteurs de catégorie est faite par rapport au niveau de référence du prédicteur. Des coefficients positifs indiquent que l'événement a plus de chances d'avoir lieu à ce niveau du prédicteur qu'au niveau de référence du facteur. Des coefficients négatifs indiquent que l'événement a moins de chances d'avoir lieu à ce niveau du prédicteur qu'au niveau de référence.
L'erreur type du coefficient estime la variabilité entre les estimations des coefficients que vous obtiendriez si vous préleviez des échantillons dans la même population de façon répétée. Le calcul suppose que l'effectif d'échantillon et les coefficients à estimer restent identiques même après plusieurs échantillonnages.
Vous pouvez utiliser l'erreur type du coefficient pour mesurer la précision de l'estimation du coefficient. Plus l'erreur type est petite, plus l'estimation est précise.
Ces intervalles de confiance (IC) sont des étendues de valeurs ayant de fortes chances de contenir la véritable valeur du coefficient pour chaque terme du modèle. Le calcul des intervalles de confiance utilise la loi normale. L'intervalle de confiance s'avère précis si l'effectif d'échantillon est assez important pour que la distribution du coefficient d'échantillon suive une loi normale.
Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Cependant, si vous prenez de nombreux échantillons aléatoires, un certain pourcentage des intervalles de confiance obtenus contiendra le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance contenant le paramètre est le niveau de confiance de l'intervalle.
Un intervalle de confiance permet d'obtenir une estimation du coefficient de population pour chaque terme du modèle.
Par exemple, avec un niveau de confiance de 95 %, vous pouvez être sûr à 95 % que l'intervalle de confiance comprend la valeur ou le coefficient de la population. L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, envisagez d'augmenter votre effectif d'échantillon.
La valeur de Z est une statistique pour les tests de Wald qui mesure le rapport entre le coefficient et son erreur type.
Minitab utilise la valeur de Z pour calculer la valeur de p, qui vous permet de déterminer si des termes sont significatifs et de choisir le modèle approprié. Le test de Wald s'avère précis lorsque l'effectif d'échantillon est assez important pour que la distribution des coefficients d'échantillons suive une loi normale.
Une valeur de Z suffisamment supérieure à 0 indique que l'estimation de coefficient est assez importante et précise pour être statistiquement différente de 0. Inversement, une valeur de Z proche de 0 indique que l'estimation de coefficient est trop petite ou imprécise pour que vous puissiez affirmer que le terme a un effet sur la réponse.
Les tests du tableau Somme des carrés d'écart sont des tests du rapport de vraisemblance. Les tests figurant dans l'affichage développé du tableau Coefficients sont des tests d'approximation de Wald. Les tests du rapport de vraisemblance sont plus exacts pour les petits échantillons que les tests d'approximation de Wald.
La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude.
Les tests du tableau Somme des carrés d'écart sont des tests du rapport de vraisemblance. Les tests figurant dans l'affichage développé du tableau Coefficients sont des tests d'approximation de Wald. Les tests du rapport de vraisemblance sont plus exacts pour les petits échantillons que les tests d'approximation de Wald.
Le facteur d'inflation de la variance (FIV) indique dans quelle mesure la variance d'un coefficient est augmentée par les corrélations existant entre les prédicteurs du modèle.
Les FIV permettent de décrire l'importance de la multicolinéarité (la corrélation entre des prédicteurs) dans une analyse de régression. La multicolinéarité est problématique car elle peut faire augmenter la variance des coefficients de régression, ce qui complique l'évaluation des conséquences de chacun des prédicteurs corrélés sur la réponse.
FIV | Etat du prédicteur |
---|---|
FIV = 1 | non corrélés |
1 < FIV < 5 | modérément corrélés |
FIV > 5 | hautement corrélés |
Pour plus d'informations sur la multicolinéarité et sur la façon d'atténuer ses effets, reportez-vous à la rubrique Multicolinéarité dans la régression.
Lorsque vous normalisez les variables continues, les coefficients représentent une variation d'une unité des variables normalisées. En général, vous normalisez les prédicteurs continus pour réduire la multicolinéarité ou placer les variables sur une échelle commune.
La manière dont vous utilisez les coefficients codés dépend de la méthode de normalisation. L'interprétation exacte des coefficients dépend également de certains aspects de l'analyse, comme la fonction de liaison. Les coefficients positifs rendent l'événement plus probable. Les coefficients négatifs rendent l'événement moins probable. Un coefficient estimé proche de 0 implique un faible effet du prédicteur.
Chaque coefficient représente la variation attendue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité sur l'échelle codée.
Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. Pour la température, le codage fait correspondre la valeur 0 à 50 degrés Celsius et la valeur 1 à 100 degrés Celsius. Pour la durée, le codage fait correspondre la valeur 0 à 30 secondes et la valeur 1 à 60 secondes. Le coefficient de la température représente une augmentation de 50 degrés Celsius. Le coefficient de la durée représente une augmentation de 30 secondes.
Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie d'un écart type.
Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. L'écart type de la température est 3,7 degrés Celsius. L'écart type de la durée est 18,3 secondes. Le coefficient de la température représente une augmentation de 3,7 degrés Celsius. Le coefficient de la durée représente une augmentation de 18,3 secondes.
Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité.
Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. Le coefficient de la température représente une augmentation de 1 degré Celsius. Le coefficient de la durée représente une augmentation de 1 seconde.
Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie d'un écart type.
Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. L'écart type de la température est 3,7 degrés Celsius. L'écart type de la durée est 18,3 secondes. Le coefficient de la température représente une augmentation de 3,7 degrés Celsius. Le coefficient de la durée représente une augmentation de 18,3 secondes.
Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie en fonction du diviseur.
Par exemple, un modèle utilise les mètres pour la longueur et les ampères pour le courant électrique. Le diviseur est 1 000. Le coefficient de la longueur représente une augmentation de 1 millimètre. Le coefficient du courant électrique représente une augmentation de 1 milliampère.
Chaque coefficient représente la variation attendue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité sur l'échelle codée.
Par exemple, un modèle utilise les degrés Celsius pour la température. Le codage fait correspondre la valeur 0 à 50 degrés Celsius et la valeur 1 à 100 degrés Celsius. Le coefficient de la température représente une augmentation de 50 degrés Celsius. Le coefficient de la température est 1,8. Lorsque la température augmente de 1 unité codée, elle augmente de 50 degrés et le logarithme népérien des probabilités de succès augmente de 1,8.
Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie d'un écart type.
Par exemple, un modèle utilise les degrés Celsius pour la température. L'écart type de la température est 3,7 degrés Celsius. Le coefficient codé pour la température est 1,4. Lorsque la température augmente de 1 unité codée, elle augmente de 3,7 degrés Celsius et le logarithme népérien des probabilités de succès augmente de 1,4.
Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que le prédicteur varie de 1 unité.
Par exemple, un modèle utilise les degrés Celsius pour la température. Le coefficient de la température représente une augmentation de 1 degré Celsius. Le coefficient pour la température est 2,3. Lorsque la température augmente de 1 unité codée, elle augmente de 1 degré Celsius et le logarithme népérien des probabilités de succès augmente de 2,3.
Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie d'un écart type.
Par exemple, un modèle utilise les degrés Celsius pour la température. L'écart type de la température est 3,7 degrés Celsius. Le coefficient de la température est 1,4. Lorsque la température augmente de 1 unité codée, elle augmente de 3,7 degrés Celsius et le logarithme népérien des probabilités de succès augmente de 1,4.
Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie en fonction du diviseur.
Par exemple, un modèle utilise les mètres pour la longueur et les ampères pour le courant électrique. Le diviseur est 1 000. Le coefficient de la longueur représente une augmentation de 1 millimètre. Le coefficient de la longueur est 5,6. Lorsque la longueur augmente de 1 unité codée, elle augmente de 1 millimètre et le logarithme népérien des probabilités de succès augmente de 5,6. Le coefficient du courant électrique représente une augmentation de 1 milliampère.
Pour la régression de Poisson, Minitab indique deux types d'équations de régression. La première équation associe le nombre d'événements à la réponse transformée. La forme de cette première équation dépend de la fonction de liaison.
La seconde équation associe les prédicteurs à la réponse transformée. Si le modèle contient à la fois des prédicteurs continus et des prédicteurs de catégorie, la seconde équation peut être séparée pour chaque combinaison de catégories. Pour plus d'informations sur le choix du nombre d'équations à afficher, reportez-vous à la rubrique Sélectionner les résultats à afficher pour la fonction Ajuster le modèle de Poisson.
Utilisez les équations pour examiner la relation entre la réponse et les variables de prédiction.
La première équation montre la relation entre le nombre d'événements et la réponse transformée en raison de la fonction de liaison du logarithme népérien.
La seconde équation indique la manière dont la taille de la vis et la température sont liées à la réponse transformée. Avec une grande vis, le coefficient de la température est d'environ −0,003. Avec une petite vis, le coefficient de la température est d'environ −0,0005. Pour ces équations, plus la température est élevée, plus le nombre de défauts est faible. Toutefois, la température a un effet plus important sur le nombre de défauts lorsque la vis est grande.
Défauts décoloration | = | exp(Y') |
---|
Taille de vis | |||
---|---|---|---|
grande | Y' | = | 4,649 - 0,003285 Température |
petite | Y' | = | 4,105 - 0,000481 Température |
Si votre modèle n'est pas hiérarchique et si vous avez normalisé les prédicteurs continus, l'équation de régression se présente en unités codées. Pour plus d'informations, reportez-vous à la section sur les coefficients codés. Pour plus d'informations sur la hiérarchie, reportez-vous à la rubrique Que sont les modèles hiérarchiques ?.