Coefficients pour Ajuster le modèle de Poisson

Obtenez des définitions et bénéficiez de conseils en matière d'interprétation pour chaque statistique fournie dans le tableau des coefficients.

Coeff

Un coefficient de régression décrit l'importance et le sens de la relation entre un prédicteur et la variable de réponse. Les coefficients sont les nombres par lesquels les valeurs du terme sont multipliées dans une équation de régression.

Interprétation

Utilisez le coefficient pour déterminer si la variation d'une variable de prévision augmente ou réduit la probabilité d'occurrence de l'événement. Le coefficient estimé associé à un prédicteur représente la variation de la fonction de liaison pour chaque variation d'une unité du prédicteur quand tous les autres prédicteurs sont maintenus constants. La relation entre le coefficient et le nombre d'événements dépend de plusieurs aspects de l'analyse, notamment la fonction de liaison et les niveaux de référence des prédicteurs de catégorie du modèle. En général, les coefficients positifs augmentent la probabilité de l'événement tandis que les coefficients négatifs la réduisent. Un coefficient estimé proche de zéro implique que l'effet du prédicteur est réduit ou inexistant.

L'interprétation des coefficients estimés pour les prédicteurs de catégorie est faite par rapport au niveau de référence du prédicteur. Des coefficients positifs indiquent que l'événement a plus de chances d'avoir lieu à ce niveau du prédicteur qu'au niveau de référence du facteur. Des coefficients négatifs indiquent que l'événement a moins de chances d'avoir lieu à ce niveau du prédicteur qu'au niveau de référence.

Coef ErT

L'erreur type du coefficient estime la variabilité entre les estimations des coefficients que vous obtiendriez si vous préleviez des échantillons dans la même population de façon répétée. Le calcul suppose que l'effectif d'échantillon et les coefficients à estimer restent identiques même après plusieurs échantillonnages.

Interprétation

Vous pouvez utiliser l'erreur type du coefficient pour mesurer la précision de l'estimation du coefficient. Plus l'erreur type est petite, plus l'estimation est précise.

Intervalle de confiance pour le coefficient (IC de 95 %)

Ces intervalles de confiance (IC) sont des étendues de valeurs ayant de fortes chances de contenir la véritable valeur du coefficient pour chaque terme du modèle. Le calcul des intervalles de confiance utilise la loi normale. L'intervalle de confiance s'avère précis si l'effectif d'échantillon est assez important pour que la distribution du coefficient d'échantillon suive une loi normale.

Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Cependant, si vous prenez de nombreux échantillons aléatoires, un certain pourcentage des intervalles de confiance obtenus contiendra le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance contenant le paramètre est le niveau de confiance de l'intervalle.

L'intervalle de confiance est composé de deux parties :
Estimation ponctuelle
Cette valeur unique estime un paramètre de population à l'aide de vos données échantillons. L'intervalle de confiance est centré sur cette estimation ponctuelle.
Marge d'erreur
La marge d'erreur définit la largeur de l'intervalle de confiance et est déterminée par la variabilité observée dans l'échantillon, l'effectif de l'échantillon et le niveau de confiance. Pour calculer la limite supérieure de l'intervalle de confiance, la marge d'erreur est ajoutée à l'estimation ponctuelle. Pour calculer la limite inférieure de l'intervalle de confiance, la marge d'erreur est soustraite de l'estimation ponctuelle.

Interprétation

Un intervalle de confiance permet d'obtenir une estimation du coefficient de population pour chaque terme du modèle.

Par exemple, avec un niveau de confiance de 95 %, vous pouvez être sûr à 95 % que l'intervalle de confiance comprend la valeur ou le coefficient de la population. L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, envisagez d'augmenter votre effectif d'échantillon.

Valeur de Z

La valeur de Z est une statistique pour les tests de Wald qui mesure le rapport entre le coefficient et son erreur type.

Interprétation

Minitab utilise la valeur de Z pour calculer la valeur de p, qui vous permet de déterminer si des termes sont significatifs et de choisir le modèle approprié. Le test de Wald s'avère précis lorsque l'effectif d'échantillon est assez important pour que la distribution des coefficients d'échantillons suive une loi normale.

Une valeur de Z suffisamment supérieure à 0 indique que l'estimation de coefficient est assez importante et précise pour être statistiquement différente de 0. Inversement, une valeur de Z proche de 0 indique que l'estimation de coefficient est trop petite ou imprécise pour que vous puissiez affirmer que le terme a un effet sur la réponse.

Les tests du tableau Somme des carrés d'écart sont des tests du rapport de vraisemblance. Les tests figurant dans l'affichage développé du tableau Coefficients sont des tests d'approximation de Wald. Les tests du rapport de vraisemblance sont plus exacts pour les petits échantillons que les tests d'approximation de Wald.

Valeur de p

La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude.

Les tests du tableau Somme des carrés d'écart sont des tests du rapport de vraisemblance. Les tests figurant dans l'affichage développé du tableau Coefficients sont des tests d'approximation de Wald. Les tests du rapport de vraisemblance sont plus exacts pour les petits échantillons que les tests d'approximation de Wald.

Interprétation

Pour déterminer si l'association entre la réponse et chacun des termes du modèle est statistiquement significative, comparez la valeur de p du terme à votre seuil de signification pour évaluer l'hypothèse nulle. L'hypothèse nulle est que le coefficient du terme est égal à zéro, ce qui implique qu'il n'existe aucune association entre le terme et la réponse. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique un risque de 5 % de conclure à tort qu'il existe une association.
Valeur de p ≤ α : l'association est statistiquement significative.
Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme.
Valeur de p > α : l'association n'est pas statistiquement significative.
Si la valeur de p est supérieure au seuil de signification, vous ne pouvez pas conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme. Il est sans doute nécessaire de réajuster le modèle sans le terme.
Si plusieurs prédicteurs ne présentent aucune association statistiquement significative avec la réponse, vous pouvez réduire le modèle en supprimant ces termes un par un. Pour plus d'informations sur la suppression de termes d'un modèle, reportez-vous à la rubrique Réduction du modèle.
Si un terme d'un modèle est statistiquement significatif, l'interprétation dépend du type de terme concerné. Les interprétations sont les suivantes :
  • Si un prédicteur continu est significatif, vous pouvez en conclure que le coefficient de ce prédicteur est différent de zéro.
  • Si un prédicteur de catégorie est significatif, la conclusion dépend du codage de la variable de catégorie. Avec le codage (0, 1), vous pouvez en conclure que le nombre moyen d'événements pour ce niveau est différent du nombre moyen d'événements pour le niveau de référence. Avec le codage (-1, 0, +1), vous pouvez en conclure que le nombre moyen d'événements pour ce niveau est différent du nombre moyen de référence des événements.
  • Vous pouvez en conclure que tous les niveaux n'ont pas le même nombre moyen d'événements.
  • Si un terme d'interaction est significatif, vous pouvez en conclure que la relation entre le prédicteur et le nombre d'événements dépend des autres prédicteurs du terme.
  • Si un terme polynomial est significatif, vous pouvez en conclure que la relation entre un prédicteur et le nombre d'événements dépend de l'importance du prédicteur.

FIV

Le facteur d'inflation de la variance (FIV) indique dans quelle mesure la variance d'un coefficient est augmentée par les corrélations existant entre les prédicteurs du modèle.

Interprétation

Les FIV permettent de décrire l'importance de la multicolinéarité (la corrélation entre des prédicteurs) dans une analyse de régression. La multicolinéarité est problématique car elle peut faire augmenter la variance des coefficients de régression, ce qui complique l'évaluation des conséquences de chacun des prédicteurs corrélés sur la réponse.

Suivez les règles suivantes pour interpréter le FIV :
FIV Etat du prédicteur
FIV = 1 non corrélés
1 < FIV < 5 modérément corrélés
FIV > 5 hautement corrélés
Une valeur de FIV supérieure à 5 suggère que le coefficient de régression est mal estimé en raison d'une importante multicolinéarité.

Pour plus d'informations sur la multicolinéarité et sur la façon d'atténuer ses effets, reportez-vous à la rubrique Multicolinéarité dans la régression.

Coefficients codés

Lorsque vous normalisez les variables continues, les coefficients représentent une variation d'une unité des variables normalisées. En général, vous normalisez les prédicteurs continus pour réduire la multicolinéarité ou placer les variables sur une échelle commune.

Interprétation

La manière dont vous utilisez les coefficients codés dépend de la méthode de normalisation. L'interprétation exacte des coefficients dépend également de certains aspects de l'analyse, comme la fonction de liaison. Les coefficients positifs rendent l'événement plus probable. Les coefficients négatifs rendent l'événement moins probable. Un coefficient estimé proche de 0 implique un faible effet du prédicteur.

Indiquer les niveaux faible et élevé à coder comme −1 et +1

Chaque coefficient représente la variation attendue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité sur l'échelle codée.

Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. Pour la température, le codage fait correspondre la valeur 0 à 50 degrés Celsius et la valeur 1 à 100 degrés Celsius. Pour la durée, le codage fait correspondre la valeur 0 à 30 secondes et la valeur 1 à 60 secondes. Le coefficient de la température représente une augmentation de 50 degrés Celsius. Le coefficient de la durée représente une augmentation de 30 secondes.

Soustraire la moyenne, puis diviser par l'écart type

Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie d'un écart type.

Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. L'écart type de la température est 3,7 degrés Celsius. L'écart type de la durée est 18,3 secondes. Le coefficient de la température représente une augmentation de 3,7 degrés Celsius. Le coefficient de la durée représente une augmentation de 18,3 secondes.

Soustraire la moyenne

Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité.

Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. Le coefficient de la température représente une augmentation de 1 degré Celsius. Le coefficient de la durée représente une augmentation de 1 seconde.

Diviser par l'écart type

Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie d'un écart type.

Par exemple, un modèle utilise les degrés Celsius pour la température et les secondes pour la durée. L'écart type de la température est 3,7 degrés Celsius. L'écart type de la durée est 18,3 secondes. Le coefficient de la température représente une augmentation de 3,7 degrés Celsius. Le coefficient de la durée représente une augmentation de 18,3 secondes.

Soustraire une valeur spécifiée et diviser par une autre

Chaque coefficient représente la variation prévue pour la moyenne de la réponse transformée, étant donné que la variable de prédiction varie en fonction du diviseur.

Par exemple, un modèle utilise les mètres pour la longueur et les ampères pour le courant électrique. Le diviseur est 1 000. Le coefficient de la longueur représente une augmentation de 1 millimètre. Le coefficient du courant électrique représente une augmentation de 1 milliampère.

Interprétation de la fonction de liaison logit

La fonction de liaison logit fournit l'interprétation la plus naturelle des coefficients estimés et constitue donc la liaison par défaut dans Minitab. Pour la fonction de liaison logit, la variable de réponse transformée est le logarithme népérien des probabilités de succès pour l'événement. Un récapitulatif des interprétations des différentes méthodes de normalisation est proposé ci-après.
Indiquer les niveaux faible et élevé à coder comme −1 et +1

Chaque coefficient représente la variation attendue pour la moyenne de la réponse transformée, étant donné que le prédicteur varie d'une unité sur l'échelle codée.

Par exemple, un modèle utilise les degrés Celsius pour la température. Le codage fait correspondre la valeur 0 à 50 degrés Celsius et la valeur 1 à 100 degrés Celsius. Le coefficient de la température représente une augmentation de 50 degrés Celsius. Le coefficient de la température est 1,8. Lorsque la température augmente de 1 unité codée, elle augmente de 50 degrés et le logarithme népérien des probabilités de succès augmente de 1,8.

Soustraire la moyenne, puis diviser par l'écart type

Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie d'un écart type.

Par exemple, un modèle utilise les degrés Celsius pour la température. L'écart type de la température est 3,7 degrés Celsius. Le coefficient codé pour la température est 1,4. Lorsque la température augmente de 1 unité codée, elle augmente de 3,7 degrés Celsius et le logarithme népérien des probabilités de succès augmente de 1,4.

Soustraire la moyenne

Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que le prédicteur varie de 1 unité.

Par exemple, un modèle utilise les degrés Celsius pour la température. Le coefficient de la température représente une augmentation de 1 degré Celsius. Le coefficient pour la température est 2,3. Lorsque la température augmente de 1 unité codée, elle augmente de 1 degré Celsius et le logarithme népérien des probabilités de succès augmente de 2,3.

Diviser par l'écart type

Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie d'un écart type.

Par exemple, un modèle utilise les degrés Celsius pour la température. L'écart type de la température est 3,7 degrés Celsius. Le coefficient de la température est 1,4. Lorsque la température augmente de 1 unité codée, elle augmente de 3,7 degrés Celsius et le logarithme népérien des probabilités de succès augmente de 1,4.

Soustraire une valeur spécifiée et diviser par une autre

Chaque coefficient représente la variation prévue pour le logarithme népérien des probabilités de succès de l'événement, étant donné que la variable de prédiction varie en fonction du diviseur.

Par exemple, un modèle utilise les mètres pour la longueur et les ampères pour le courant électrique. Le diviseur est 1 000. Le coefficient de la longueur représente une augmentation de 1 millimètre. Le coefficient de la longueur est 5,6. Lorsque la longueur augmente de 1 unité codée, elle augmente de 1 millimètre et le logarithme népérien des probabilités de succès augmente de 5,6. Le coefficient du courant électrique représente une augmentation de 1 milliampère.

Equation de régression

Pour la régression de Poisson, Minitab indique deux types d'équations de régression. La première équation associe le nombre d'événements à la réponse transformée. La forme de cette première équation dépend de la fonction de liaison.

La seconde équation associe les prédicteurs à la réponse transformée. Si le modèle contient à la fois des prédicteurs continus et des prédicteurs de catégorie, la seconde équation peut être séparée pour chaque combinaison de catégories. Pour plus d'informations sur le choix du nombre d'équations à afficher, reportez-vous à la rubrique Sélectionner les résultats à afficher pour la fonction Ajuster le modèle de Poisson.

Interprétation

Utilisez les équations pour examiner la relation entre la réponse et les variables de prédiction.

Par exemple, un modèle destiné à prévoir si une pièce en résine est défectueuse contient les termes suivants :
  • Taille de vis
  • Température

La première équation montre la relation entre le nombre d'événements et la réponse transformée en raison de la fonction de liaison du logarithme népérien.

La seconde équation indique la manière dont la taille de la vis et la température sont liées à la réponse transformée. Avec une grande vis, le coefficient de la température est d'environ −0,003. Avec une petite vis, le coefficient de la température est d'environ −0,0005. Pour ces équations, plus la température est élevée, plus le nombre de défauts est faible. Toutefois, la température a un effet plus important sur le nombre de défauts lorsque la vis est grande.

Analyse de régression de Poisson : Défauts déco en fonction de Température; Tai

Equation de régression Défauts décoloration = exp(Y')
Taille de vis grande Y' = 4,649 - 0,003285 Température petite Y' = 4,105 - 0,000481 Température

Si votre modèle n'est pas hiérarchique et si vous avez normalisé les prédicteurs continus, l'équation de régression se présente en unités codées. Pour plus d'informations, reportez-vous à la section sur les coefficients codés. Pour plus d'informations sur la hiérarchie, reportez-vous à la rubrique Que sont les modèles hiérarchiques ?.

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique