Tableau des coefficients pour Ajuster le modèle de régression

Obtenez des définitions et bénéficiez de conseils en matière d'interprétation pour chaque statistique du tableau des coefficients.

Coefficients

Un coefficient de régression décrit l'importance et le sens de la relation entre un prédicteur et la variable de réponse. Les coefficients sont les nombres par lesquels les valeurs du terme sont multipliées dans une équation de régression.

Interprétation

Le coefficient d'un terme représente la variation de la réponse moyenne associée à la variation de ce terme quand tous les autres prédicteurs sont maintenus constants. Le signe du coefficient indique la direction de la relation entre le terme et la réponse. La taille du coefficient aide généralement à évaluer si l'effet d'un terme sur la variable de réponse est significatif dans la pratique. Toutefois, l'importance du coefficient n'indique pas si un terme est statistiquement significatif ou non car le calcul de la signification prend également en compte la variation des données de réponse. Pour évaluer la signification statistique, examinez la valeur de p du terme.

L'interprétation de chaque coefficient varie selon qu'il s'agit d'un coefficient pour une variable continue ou de catégorie, et ce de la manière suivante :
Variable continue

Le coefficient du terme représente la variation de la réponse moyenne lorsque le terme est modifié d'une unité. Si le coefficient est négatif, plus le terme augmente, plus la valeur moyenne de la réponse diminue. Si le coefficient est positif, plus le terme augmente, plus la valeur moyenne de la réponse augmente.

Variable de catégorie
Un coefficient est indiqué pour chaque niveau de la variable de catégorie, sauf un (à moins que vous ne choisissiez d'afficher les coefficients pour tous les niveaux dans la sous-boîte de dialogue Résultats). Le coefficient correspondant à l'un des niveaux de la variable de catégorie doit être défini sur zéro afin que le modèle puisse être ajusté. Pour une variable de catégorie, l'interprétation du coefficient dépend du codage que vous avez choisi pour les variables de catégorie. Vous pouvez changer ce codage dans la sous-boîte de dialogue Codage.
  • Avec le schéma de codage (0, 1), chaque coefficient représente la différence entre la moyenne de chaque niveau et la moyenne du niveau de référence. Le coefficient associé au niveau de référence n'est pas affiché dans le tableau Coefficients.
  • Avec le schéma de codage (−1, 0, +1), chaque coefficient représente la différence entre la moyenne de chaque niveau et la moyenne globale.

Par exemple, le responsable d'une entreprise considère que les résultats d'un employé à un test de compétences professionnelles peuvent être prévus à l'aide du modèle de régression y = 130 + 4,3x1 + 10,1x2. Dans cette équation, x1 représente les heures de formation sur les lieux de travail (de 0 à 20). La variable x2 est une variable de catégorie qui est égale à 1 si l'employé a un tuteur et à 0 s'il n'en a pas. La réponse est y, qui représente le résultat au test. Le coefficient de la variable continue du nombre d'heures de formation est 4,3, ce qui indique que pour chaque nouvelle heure de formation, le résultat moyen au test augmente de 4,3 points. En utilisant le schéma de codage (0, 1), le coefficient de la variable de catégorie relative au tutorat indique que les employés avec tuteur ont en moyenne des résultats supérieurs de 10,1 points par rapport aux autres employés.

Coefficients codés

Minitab peut ajuster des modèles linéaires en appliquant différents schémas de codage aux variables continues. Ces schémas de codage permettent d'améliorer le processus d'estimation et l'interprétation des résultats. De plus, les unités codées peuvent changer les résultats des tests statistiques utilisés pour déterminer si chacun des termes est un prédicteur significatif de la réponse. Lorsqu'un modèle utilise des unités codées, l'analyse génère des coefficients codés.

Interprétation

La méthode de codage utilisée par Minitab influe à la fois sur l'estimation et sur l'interprétation des coefficients codés, ce, de la manière suivante :
Spécifier les niveaux inférieur et supérieur pour coder comme -1 et +1
Cette méthode permet à la fois de centrer les variables et de les mettre à l'échelle. Minitab utilise cette méthode dans les plans d'expériences (DOE). Les coefficients représentent la variation moyenne de la réponse associée aux valeurs élevées et faibles que vous avez spécifiées.
Soustraire la moyenne et diviser par l'écart type
Cette méthode permet à la fois de centrer les variables et de les mettre à l'échelle. Chaque coefficient représente la variation attendue de la réponse lorsque la variable est modifiée d'un écart type.
Soustraire la moyenne
Cette méthode permet de centrer les variables. Chaque coefficient représente la variation attendue de la réponse lorsque la variable est modifiée d'une unité, en utilisant l'échelle de mesure initiale. Lorsque vous soustrayez la moyenne, le coefficient constant offre une estimation de la réponse moyenne lorsque tous les prédicteurs ont leur valeur moyenne.
Diviser par l'écart type
Cette méthode permet de mettre les variables à l'échelle. Chaque coefficient représente la variation attendue de la réponse lorsque la variable est modifiée d'un écart type.
Soustraire une valeur spécifiée, puis diviser par une autre
L'effet et l'interprétation de cette méthode dépend des valeurs que vous entrez.

Coef ErT

L'erreur type du coefficient estime la variabilité entre les estimations des coefficients que vous obtiendriez si vous préleviez des échantillons dans la même population de façon répétée. Le calcul suppose que l'effectif d'échantillon et les coefficients à estimer restent identiques même après plusieurs échantillonnages.

Interprétation

Vous pouvez utiliser l'erreur type du coefficient pour mesurer la précision de l'estimation du coefficient. Plus l'erreur type est petite, plus l'estimation est précise. Si vous divisez le coefficient par son erreur type, vous obtiendrez une valeur de t. Si la valeur de p associée à cette statistique t est inférieure au seuil de signification, vous en concluez que le coefficient est significatif sur le plan statistique.

Par exemple, des techniciens évaluent un modèle décrivant une isolation dans le cadre d'un test sur l'énergie héliothermique :

Analyse de régression : Isolation en fonction de Sud; Nord; Heure journée

Coefficients

TermeCoeffCoef ErTValeur de TValeur de pFIV
Constante8093772,140,042 
Sud20,818,652,410,0242,24
Nord-23,717,4-1,360,1862,17
Heure journée-30,210,8-2,790,0103,86

Dans ce modèle, les prédicteurs Nord et Sud mesurent la position d'un point focal en pouces. Les coefficients pour Nord et Sud sont les mêmes. L'erreur type associée au coefficient pour Sud est inférieure celle associée au coefficient pour Nord. Par conséquent, le modèle permet d'estimer le coefficient pour Sud avec davantage de précision.

L'erreur type du coefficient pour Nord est presque aussi importante que la valeur du coefficient lui-même. La valeur de p obtenue étant plus élevée que les seuils de signification courants, vous ne pouvez pas en conclure que le coefficient pour Nord diffère de zéro.

Le coefficient pour Sud est plus proche de zéro que celui pour Nord, et l'erreur type du coefficient pour Sud est plus faible. La valeur de p obtenue est inférieure aux seuils de signification courants. L'estimation du coefficient pour Sud étant plus précise, vous pouvez en conclure que ce coefficient diffère de zéro.

La signification statistique est un critère pouvant être utilisé pour réduire un modèle dans le cadre de la régression multiple. Pour plus d'informations, reportez-vous à la rubrique Réduction du modèle.

Intervalle de confiance pour le coefficient (IC à 95 %)

Ces intervalles de confiance (IC) sont des étendues de valeurs ayant de fortes chances de contenir la véritable valeur du coefficient pour chaque terme du modèle.

Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Cependant, si vous prenez de nombreux échantillons aléatoires, un certain pourcentage des intervalles de confiance obtenus contiendra le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance contenant le paramètre est le niveau de confiance de l'intervalle.

L'intervalle de confiance est composé de deux parties :
Estimation ponctuelle
Cette valeur unique estime un paramètre de population à l'aide de vos données échantillons. L'intervalle de confiance est centré sur cette estimation ponctuelle.
Marge d'erreur
La marge d'erreur définit la largeur de l'intervalle de confiance et est déterminée par la variabilité observée dans l'échantillon, l'effectif de l'échantillon et le niveau de confiance. Pour calculer la limite supérieure de l'intervalle de confiance, la marge d'erreur est ajoutée à l'estimation ponctuelle. Pour calculer la limite inférieure de l'intervalle de confiance, la marge d'erreur est soustraite de l'estimation ponctuelle.

Interprétation

Un intervalle de confiance permet d'obtenir une estimation du coefficient de population pour chaque terme du modèle.

Par exemple, avec un niveau de confiance de 95 %, vous pouvez être sûr à 95 % que l'intervalle de confiance comprend la valeur ou le coefficient de la population. L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, envisagez d'augmenter votre effectif d'échantillon.

Valeur de t

La valeur de t mesure le rapport entre le coefficient et son erreur type.

Interprétation

Minitab utilise la valeur de t pour calculer la valeur de p, qui permet de déterminer si le coefficient est significativement différent de 0.

Vous pouvez utiliser la valeur de t afin de déterminer si l'hypothèse nulle doit être rejetée. Cependant, la valeur de p est plus souvent utilisée, car le seuil de rejet de l'hypothèse nulle ne dépend pas des degrés de liberté. Pour plus d'informations sur l'utilisation de la valeur de t, reportez-vous à la rubrique Utiliser la valeur de t afin de déterminer si l'hypothèse nulle doit être rejetée.

Valeur de p - Coefficient

La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude.

Interprétation

Pour déterminer si l'association entre la réponse et chacun des termes du modèle est statistiquement significative, comparez la valeur de p du terme à votre seuil de signification pour évaluer l'hypothèse nulle. L'hypothèse nulle est que le coefficient du terme est égal à zéro, ce qui implique qu'il n'existe aucune association entre le terme et la réponse. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique un risque de 5 % de conclure à tort qu'il existe une association.
Valeur de p ≤ α : l'association est statistiquement significative
Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme.
Valeur de p > α : l'association n'est pas statistiquement significative
Si la valeur de p est supérieure au seuil de signification, vous ne pouvez pas conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme. Il est sans doute nécessaire de réajuster le modèle sans le terme.
Si plusieurs prédicteurs ne présentent aucune association statistiquement significative avec la réponse, vous pouvez réduire le modèle en supprimant ces termes un par un. Pour plus d'informations sur la suppression de termes d'un modèle, reportez-vous à la rubrique Réduction du modèle.
Si un terme d'un modèle est statistiquement significatif, l'interprétation dépend du type de terme concerné. Les interprétations sont les suivantes :
  • Si un coefficient d'une variable continue est significatif, une variation de la valeur de la variable entraîne une variation de la valeur de réponse moyenne.
  • Si un coefficient d'un niveau de variable de catégorie est significatif, la moyenne correspondant à ce niveau est différente de la moyenne globale (codage -1, 0, +1) ou de la moyenne correspondant au niveau de référence (codage 0, 1).
  • Si un coefficient d'un terme d'interaction est significatif, la relation entre l'un des facteurs et la réponse dépend des autres facteurs du terme. Dans ce cas, vous ne devez pas interpréter les effets principaux sans prendre en compte l'effet d'interaction.
  • Si un coefficient d'un terme polynomial est significatif, vous pouvez en conclure que les données contiennent une courbure.

FIV

Le facteur d'inflation de la variance (FIV) indique dans quelle mesure la variance d'un coefficient est augmentée par les corrélations existant entre les prédicteurs du modèle.

Interprétation

Les FIV permettent de décrire l'importance de la multicolinéarité (la corrélation entre des prédicteurs) dans une analyse de régression. La multicolinéarité est problématique car elle peut faire augmenter la variance des coefficients de régression, ce qui complique l'évaluation des conséquences de chacun des prédicteurs corrélés sur la réponse.

Suivez les règles suivantes pour interpréter le FIV :
FIV Etat du prédicteur
FIV = 1 non corrélés
1 < FIV < 5 modérément corrélés
FIV > 5 hautement corrélés
Une valeur de FIV supérieure à 5 suggère que le coefficient de régression est mal estimé en raison d'une importante multicolinéarité.

Pour plus d'informations sur la multicolinéarité et sur la façon d'atténuer ses effets, reportez-vous à la rubrique Multicolinéarité dans la régression.