Un coefficient de régression décrit l'importance et le sens de la relation entre un prédicteur et la variable de réponse. Les coefficients sont les nombres par lesquels les valeurs du terme sont multipliées dans une équation de régression.
Utilisez le coefficient pour déterminer si la variation d'une variable de prévision augmente ou réduit la probabilité d'occurrence de l'événement. Le coefficient d'un terme représente le changement dans la fonction de liaison associée à une augmentation d'une unité codée de ce terme quand tous les autres prédicteurs sont maintenus constants.
La valeur de l'effet aide généralement à évaluer si l'effet d'un terme sur la variable de réponse est significatif dans la pratique. L'importance de l'effet n'indique pas si un terme est statistiquement significatif ou non, car le calcul de la signification prend également en compte la variation des données de réponse. Pour évaluer la signification statistique, examinez la valeur de p du terme.
La relation entre le coefficient et la probabilité dépend de plusieurs aspects de l'analyse, notamment la fonction de liaison, l'événement de référence pour la réponse et les niveaux de référence pour les prédicteurs de catégorie du modèle. En général, les coefficients positifs augmentent la probabilité de l'événement tandis que les coefficients négatifs la réduisent. Un coefficient estimé proche de 0 implique que l'effet du prédicteur est réduit.
La fonction de liaison logit fournit l'interprétation la plus naturelle des coefficients estimés et constitue donc la liaison par défaut dans Minitab. L'interprétation utilise le fait que les probabilités de succès d'un événement de référence sont P(événement)/P(non-événement) et suppose que les autres prédicteurs restent constants. Plus le logarithme des probabilités de succès est important, plus l'événement de référence est probable. Ainsi, des coefficients positifs indiquent que la probabilité de l'événement augmente, tandis que des coefficients négatifs indiquent qu'elle diminue. Vous avez ci-après un résumé des règles d'interprétation pour les différents types de facteurs.
L'erreur type du coefficient estime la variabilité entre les estimations des coefficients que vous obtiendriez si vous préleviez des échantillons dans la même population de façon répétée. Le calcul suppose que l'effectif d'échantillon et les coefficients à estimer restent identiques même après plusieurs échantillonnages.
Vous pouvez utiliser l'erreur type du coefficient pour mesurer la précision de l'estimation du coefficient. Plus l'erreur type est petite, plus l'estimation est précise.
Ces intervalles de confiance (IC) sont des étendues de valeurs ayant de fortes chances de contenir la véritable valeur du coefficient pour chaque terme du modèle.
Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Cependant, si vous prenez de nombreux échantillons aléatoires, un certain pourcentage des intervalles de confiance obtenus contiendra le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance contenant le paramètre est le niveau de confiance de l'intervalle.
Un intervalle de confiance permet d'obtenir une estimation du coefficient de population pour chaque terme du modèle.
Par exemple, avec un niveau de confiance de 95 %, vous pouvez être sûr à 95 % que l'intervalle de confiance comprend la valeur ou le coefficient de la population. L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, vous devez sans doute augmenter votre effectif d'échantillon.
La valeur de Z est une statistique pour les tests de Wald qui mesure le rapport entre le coefficient et son erreur type.
Minitab utilise la valeur de Z pour calculer la valeur de p, qui vous permet de déterminer si des termes sont significatifs et de choisir le modèle approprié. Le test de Wald s'avère précis lorsque l'effectif d'échantillon est assez important pour que la distribution des coefficients d'échantillons suive une loi normale.
Une valeur de Z suffisamment supérieure à 0 indique que l'estimation de coefficient est assez importante et précise pour être statistiquement différente de 0. Inversement, une valeur de Z proche de 0 indique que l'estimation de coefficient est trop petite ou imprécise pour que vous puissiez affirmer que le terme a un effet sur la réponse.
Les tests du tableau Somme des carrés d'écart sont des tests du rapport de vraisemblance. Les tests figurant dans l'affichage développé du tableau Coefficients sont des tests d'approximation de Wald. Les tests du rapport de vraisemblance sont plus exacts pour les petits échantillons que les tests d'approximation de Wald.
La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude.
Les tests du tableau Somme des carrés d'écart sont des tests du rapport de vraisemblance. Les tests figurant dans l'affichage développé du tableau Coefficients sont des tests d'approximation de Wald. Les tests du rapport de vraisemblance sont plus exacts pour les petits échantillons que les tests d'approximation de Wald.
Pour déterminer si un coefficient est statistiquement différent de 0, comparez la valeur de p du terme à votre seuil de signification afin d'évaluer l'hypothèse nulle. L'hypothèse nulle est que le coefficient est égal à 0, ce qui implique qu'il n'existe aucune association entre le terme et la réponse.
En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique qu'il existe un risque de 5 % de conclure à tort que le coefficient n'est pas 0.
La fonction de liaison logit fournit l'interprétation la plus naturelle des coefficients estimés et constitue donc la liaison par défaut dans Minitab. L'interprétation utilise le fait que les probabilités de succès d'un événement de référence sont P(événement)/P(non-événement) et suppose que les autres prédicteurs restent constants. Plus le logarithme des probabilités de succès est important, plus l'événement de référence est probable. Ainsi, des coefficients positifs indiquent que la probabilité de l'événement augmente, tandis que des coefficients négatifs indiquent qu'elle diminue. Vous avez ci-après un résumé des règles d'interprétation pour les différents types de facteurs.
Le facteur d'inflation de la variance (FIV) indique dans quelle mesure la variance d'un coefficient est augmentée par les corrélations existant entre les prédicteurs du modèle.
Les FIV permettent de décrire l'importance de la multicolinéarité (la corrélation entre des prédicteurs) dans un modèle. Dans la plupart des plans factoriels, toutes les valeurs de FIV sont égales à 1, ce qui indique qu'il n'existe pas de multicolinéarité entre les prédicteurs. L'absence de multicolinéarité simplifie la détermination de la signification statistique. L'inclusion de covariables dans le modèle et l'occurrence d'essais ratés lors de la collecte de données sont deux situations courantes qui entraînent l'augmentation des FIV, ce qui complique l'interprétation de la signification statistique. En outre, pour les réponses binaires, les valeurs de FIV sont souvent supérieures à 1.
FIV | Etat du prédicteur |
---|---|
FIV = 1 | non corrélés |
1 < FIV < 5 | modérément corrélés |
FIV > 5 | hautement corrélés |
En cas de multicolinéarité, faites preuve de prudence lorsque vous vous fondez sur la signification statistique pour choisir les termes à enlever d'un modèle. Les termes doivent être ajoutés ou retirés un par un. A chaque modification du modèle, étudiez les changements dans les statistiques récapitulatives du modèle et les tests de signification statistiques.