Un coefficient de régression décrit l'importance et le sens de la relation entre un prédicteur et la variable de réponse. Les coefficients sont les nombres par lesquels les valeurs du terme sont multipliées dans une équation de régression.
Le coefficient d'un terme représente la variation de la réponse moyenne associée à la variation de ce terme quand tous les autres prédicteurs sont maintenus constants. Le signe du coefficient indique la direction de la relation entre le terme et la réponse. La taille du coefficient aide généralement à évaluer si l'effet d'un terme sur la variable de réponse est significatif dans la pratique. Toutefois, l'importance du coefficient n'indique pas si un terme est statistiquement significatif ou non car le calcul de la signification prend également en compte la variation des données de réponse. Pour évaluer la signification statistique, examinez la valeur de p du terme.
Le coefficient du terme représente la variation de la réponse moyenne lorsque le terme est modifié d'une unité. Si le coefficient est négatif, plus le terme augmente, plus la valeur moyenne de la réponse diminue. Si le coefficient est positif, plus le terme augmente, plus la valeur moyenne de la réponse augmente.
Par exemple, le responsable d'une entreprise considère que les résultats d'un employé à un test de compétences professionnelles peuvent être prévus à l'aide du modèle de régression y = 130 + 4,3x1 + 10,1x2. Dans cette équation, x1 représente les heures de formation sur les lieux de travail (de 0 à 20). La variable x2 est une variable de catégorie qui est égale à 1 si l'employé a un tuteur et à 0 s'il n'en a pas. La réponse est y, qui représente le résultat au test. Le coefficient de la variable continue du nombre d'heures de formation est 4,3, ce qui indique que pour chaque nouvelle heure de formation, le résultat moyen au test augmente de 4,3 points. En utilisant le schéma de codage (0, 1), le coefficient de la variable de catégorie relative au tutorat indique que les employés avec tuteur ont en moyenne des résultats supérieurs de 10,1 points par rapport aux autres employés.
Minitab peut ajuster des modèles linéaires en appliquant différents schémas de codage aux variables continues. Ces schémas de codage permettent d'améliorer le processus d'estimation et l'interprétation des résultats. De plus, les unités codées peuvent changer les résultats des tests statistiques utilisés pour déterminer si chacun des termes est un prédicteur significatif de la réponse. Lorsqu'un modèle utilise des unités codées, l'analyse génère des coefficients codés.
L'erreur type du coefficient estime la variabilité entre les estimations des coefficients que vous obtiendriez si vous préleviez des échantillons dans la même population de façon répétée. Le calcul suppose que l'effectif d'échantillon et les coefficients à estimer restent identiques même après plusieurs échantillonnages.
Vous pouvez utiliser l'erreur type du coefficient pour mesurer la précision de l'estimation du coefficient. Plus l'erreur type est petite, plus l'estimation est précise. Si vous divisez le coefficient par son erreur type, vous obtiendrez une valeur de t. Si la valeur de p associée à cette statistique t est inférieure au seuil de signification, vous en concluez que le coefficient est significatif sur le plan statistique.
Par exemple, des techniciens évaluent un modèle décrivant une isolation dans le cadre d'un test sur l'énergie héliothermique :
Terme | Coeff | Coef ErT | Valeur de T | Valeur de p | FIV |
---|---|---|---|---|---|
Constante | 809 | 377 | 2,14 | 0,042 | |
Sud | 20,81 | 8,65 | 2,41 | 0,024 | 2,24 |
Nord | -23,7 | 17,4 | -1,36 | 0,186 | 2,17 |
Heure journée | -30,2 | 10,8 | -2,79 | 0,010 | 3,86 |
Dans ce modèle, les prédicteurs Nord et Sud mesurent la position d'un point focal en pouces. Les coefficients pour Nord et Sud sont les mêmes. L'erreur type associée au coefficient pour Sud est inférieure celle associée au coefficient pour Nord. Par conséquent, le modèle permet d'estimer le coefficient pour Sud avec davantage de précision.
L'erreur type du coefficient pour Nord est presque aussi importante que la valeur du coefficient lui-même. La valeur de p obtenue étant plus élevée que les seuils de signification courants, vous ne pouvez pas en conclure que le coefficient pour Nord diffère de zéro.
Le coefficient pour Sud est plus proche de zéro que celui pour Nord, et l'erreur type du coefficient pour Sud est plus faible. La valeur de p obtenue est inférieure aux seuils de signification courants. L'estimation du coefficient pour Sud étant plus précise, vous pouvez en conclure que ce coefficient diffère de zéro.
La signification statistique est un critère pouvant être utilisé pour réduire un modèle dans le cadre de la régression multiple. Pour plus d'informations, reportez-vous à la rubrique Réduction du modèle.
Ces intervalles de confiance (IC) sont des étendues de valeurs ayant de fortes chances de contenir la véritable valeur du coefficient pour chaque terme du modèle.
Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Cependant, si vous prenez de nombreux échantillons aléatoires, un certain pourcentage des intervalles de confiance obtenus contiendra le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance contenant le paramètre est le niveau de confiance de l'intervalle.
Un intervalle de confiance permet d'obtenir une estimation du coefficient de population pour chaque terme du modèle.
Par exemple, avec un niveau de confiance de 95 %, vous pouvez être sûr à 95 % que l'intervalle de confiance comprend la valeur ou le coefficient de la population. L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, envisagez d'augmenter votre effectif d'échantillon.
La valeur de t mesure le rapport entre le coefficient et son erreur type.
Minitab utilise la valeur de t pour calculer la valeur de p, qui permet de déterminer si le coefficient est significativement différent de 0.
Vous pouvez utiliser la valeur de t afin de déterminer si l'hypothèse nulle doit être rejetée. Cependant, la valeur de p est plus souvent utilisée, car le seuil de rejet de l'hypothèse nulle ne dépend pas des degrés de liberté. Pour plus d'informations sur l'utilisation de la valeur de t, reportez-vous à la rubrique Utiliser la valeur de t afin de déterminer si l'hypothèse nulle doit être rejetée.
La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude.
Le facteur d'inflation de la variance (FIV) indique dans quelle mesure la variance d'un coefficient est augmentée par les corrélations existant entre les prédicteurs du modèle.
Les FIV permettent de décrire l'importance de la multicolinéarité (la corrélation entre des prédicteurs) dans une analyse de régression. La multicolinéarité est problématique car elle peut faire augmenter la variance des coefficients de régression, ce qui complique l'évaluation des conséquences de chacun des prédicteurs corrélés sur la réponse.
FIV | Etat du prédicteur |
---|---|
FIV = 1 | non corrélés |
1 < FIV < 5 | modérément corrélés |
FIV > 5 | hautement corrélés |
Pour plus d'informations sur la multicolinéarité et sur la façon d'atténuer ses effets, reportez-vous à la rubrique Multicolinéarité dans la régression.