Analyse du tableau des écarts pour Ajuster le modèle de régression et Regressão Linear

Trouvez les définitions et les interprétations de chaque statistique dans le tableau Analyse de variance.

DL

Le nombre total de degrés de liberté (DL) représente la quantité d'informations dans vos données. L'analyse utilise ces informations pour estimer les valeurs des paramètres de population inconnus. Le nombre total de DL est déterminé par le nombre d'observations dans votre échantillon. Les DL d'un terme affichent la quantité d'informations utilisée par ce terme. Le fait d'accroître l'effectif de l'échantillon permet d'obtenir davantage d'informations sur la population, ce qui augmente le nombre total de degrés de liberté. Le fait d'augmenter le nombre de termes dans votre modèle utilise plus d'informations, ce qui réduit le nombre de DL disponibles pour l'estimation de la variabilité des estimations de paramètres.

Deux conditions doivent être remplies pour que Minitab subdivise les DL de l'erreur. D'abord, le modèle en cours doit ne pas inclure certains termes que vous pouvez ajuster avec les données. Par exemple, si vous disposez d'un prédicteur avec au moins 3 valeurs différentes, vous pouvez estimer un terme quadratique pour ce prédicteur. Si le modèle ne contient pas le terme quadratique, un terme pouvant être ajusté par les données n'est pas inclus au modèle, ce qui permet de remplir cette condition.

La seconde condition est que les données doivent contenir des répliques. Les répliques sont des observations où tous les prédicteurs ont la même valeur. Par exemple, si vous disposez de 3 observations où la pression est 5 et la température est 25, les 3 observations sont des répliques.

Si ces deux conditions sont remplies, les deux composantes des DL de l'erreur correspondant à l'inadéquation de l'ajustement et à l'erreur pure. Les DL pour l'inéquation de l'ajustement permettent de déterminer si la forme du modèle est adaptée. Le test d'inadéquation de l'ajustement utilise les degrés de liberté de l'inadéquation. Plus les DL sont nombreux pour l'erreur pure, plus le test d'inadéquation de l'ajustement est efficace.

SomCar ajust

Les sommes des carrés ajustées sont des mesures de la variation des différentes composantes du modèle. L'ordre des prédicteurs dans le modèle n'a aucun effet sur le calcul des sommes des carrés ajustées. Dans le tableau d'analyse de la variance, Minitab divise les sommes des carrés en différentes composantes qui décrivent la variation due à différentes sources.

Terme SomCar ajust
La somme des carrés ajustée pour un terme représente l'augmentation de la somme des carrés de la régression obtenue par rapport à un modèle qui comporte uniquement les autres termes. Elle permet ainsi de quantifier la variation des données de réponse expliquée par chaque terme du modèle.
SomCar ajust de l'erreur
La somme des carrés de l'erreur correspond à la somme des carrés des valeurs résiduelles. Elle quantifie la variation des données non expliquée par les prédicteurs.
SomCar ajust totale
La somme totale des carrés est obtenue en additionnant la somme des carrés du terme et la somme des carrés de l'erreur. elle quantifie la variation totale dans les données.

Interprétation

Minitab utilise la somme des carrés ajustée pour calculer la valeur de p pour un terme. Minitab utilise aussi les sommes des carrés pour calculer la statistique R2. En général, vous interprétez les valeurs de p et la statistique R2 plutôt que les sommes des carrés.

CM ajust

Les carrés moyens ajustés mesurent la proportion de variation expliquée par un terme ou un modèle, en supposant que tous les autres termes sont dans le modèle, quel que soit l'ordre dans lequel ils ont été saisis. Contrairement aux sommes des carrés ajustées, les carrés moyens ajustés tiennent compte des degrés de liberté.

Le carré moyen ajusté de l'erreur (également noté CME ou s2) est la variance autour des valeurs ajustées.

Interprétation

Minitab utilise les carrés moyens ajustés pour calculer la valeur de p pour un terme. Minitab les utilise également pour calculer la statistique R2 ajusté. En général, vous interprétez les valeurs de p et la statistique R2 ajusté plutôt que les carrés moyens ajustés.

SomCar séq

Les sommes des carrés séquentielles sont des mesures de la variation des différentes composantes du modèle. Contrairement aux sommes des carrés ajustées, les sommes des carrés séquentielles dépendent de l'ordre dans lequel les termes sont entrés dans le modèle. Dans le tableau Analyse de variance, Minitab divise les sommes des carrés séquentielles en différentes composantes qui décrivent la variation due à différentes sources.

SomCar séq - Régression
La régression de la somme des carrés correspond à la somme des écarts au carré des valeurs de réponses ajustées par rapport à la valeur de réponse moyenne. Elle mesure la variation des données de réponse expliquée par le modèle.
Terme SomCar séq
La somme des carrés séquentielle pour un terme est la part de la variation exclusivement expliquée par un terme, et non par les autres termes déjà entrés. Elle quantifie la variation des données de réponse expliquée par chaque terme, à mesure que vous les ajoutez, dans l'ordre, au modèle.
SomCar séq de l'erreur
La somme des carrés de l'erreur correspond à la somme des carrés des valeurs résiduelles. Elle quantifie la variation des données non expliquée par les prédicteurs.
SomCar séq totale
La somme totale des carrés correspond à la somme de termes séquentielle des carrés ajoutée à la somme des erreurs des carrés. Elle quantifie la variation totale dans les données.

Interprétation

Par défaut, les sommes des carrés ajustées sont utilisées pour calculer la valeur de p d'un terme. Lorsque le cas s'y prête, vous pouvez utiliser la somme des carrés séquentielle pour calculer la valeur de p d'un terme. En général, vous interprétez les valeurs de p plutôt que les sommes des carrés.

CM séq

Les carrés moyens séquentiels mesurent la proportion de la variation expliquée par un terme ou un modèle. Les carrés moyens séquentiels dépendent de l'ordre dans lequel les termes sont entrés dans le modèle. Contrairement aux sommes des carrés séquentielles, les carrés moyens séquentiels tiennent compte des degrés de liberté.

Le carré moyen séquentiel de l'erreur (également noté CME ou s2) est la variance autour des valeurs ajustées.

Interprétation

Minitab utilise les carrés moyens séquentiels pour calculer la valeur de p pour un terme. Minitab les utilise également pour calculer la statistique R2 ajusté. En général, vous interprétez les valeurs de p et la statistique R2 ajusté plutôt que les carrés moyens séquentiels.

Contribution

La contribution est le pourcentage de la somme des carrés séquentielle totale (SomCar séq) pouvant être attribué à chaque source figurant dans le tableau de l'analyse de la variance.

Interprétation

Plus les pourcentages sont élevés, plus la part de la variation de la réponse expliquée par la source est importante.

Valeur F

Une valeur F apparaît pour chaque terme dans le tableau d'analyse de la variance :
Valeur F pour le modèle ou les termes
La valeur F est une statistique de test utilisée pour déterminer si le terme est associé à la réponse.
Valeur F pour le test d'inadéquation de l'ajustement
La valeur F est une statistique de test utilisée pour déterminer s'il manque au modèle des termes d'ordre supérieur comprenant les prédicteurs du modèle en cours.

Interprétation

Minitab utilise la valeur F pour calculer la valeur de p, qui vous permet de déterminer si des termes sont significatifs et de choisir le modèle approprié. La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude.

Une valeur F suffisamment élevée indique que le terme ou le modèle est significatif.

Si vous souhaitez utiliser la valeur F pour savoir si l'hypothèse nulle doit être rejetée, comparez-la à votre valeur critique. Vous pouvez calculer la valeur critique dans Minitab ou rechercher la valeur critique dans un tableau de loi F, disponible dans la plupart des livres de statistiques. Pour plus d'informations sur la façon d'utiliser Minitab pour calculer la valeur critique, accédez à la rubrique Utilisation de la fonction de répartition (CDF) inverse et cliquez sur "Utiliser la CDF inverse pour calculer des valeurs critiques".

Valeur de p – Régression

La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude.

Interprétation

Pour déterminer si le modèle explique la variation dans la réponse, comparez la valeur de p du modèle à votre seuil de signification pour évaluer l'hypothèse nulle. L'hypothèse nulle pour la régression globale est que le modèle n'explique en rien la variation dans la réponse. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique 5 % de risques de conclure à tort que le modèle explique la variation dans la réponse.
Valeur de p ≤  α : le modèle explique la variation dans la réponse.
Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez en conclure que le modèle explique la variation dans la réponse.
Valeur de p >  α : vous n'êtes pas en mesure de conclure que le modèle explique la variation dans la réponse.

Si la valeur de p est supérieure au seuil de signification, vous ne pouvez pas conclure que le modèle explique la variation dans la réponse. Il est sans doute nécessaire d'ajuster un nouveau modèle.

Valeur de p – Terme

La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude.

Interprétation

Pour déterminer si l'association entre la réponse et chacun des termes du modèle est statistiquement significative, comparez la valeur de p du terme à votre seuil de signification pour évaluer l'hypothèse nulle. L'hypothèse nulle est qu'il n'existe aucune association entre le terme et la réponse. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique un risque de 5 % de conclure à tort qu'il existe une association.
Valeur de p ≤ α : l'association est statistiquement significative.
Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme.
Valeur de p > α : l'association n'est pas statistiquement significative.
Si la valeur de p est supérieure au seuil de signification, vous ne pouvez pas conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme. Il est sans doute nécessaire de réajuster le modèle sans le terme.
Si plusieurs prédicteurs ne présentent aucune association statistiquement significative avec la réponse, vous pouvez réduire le modèle en supprimant ces termes un par un. Pour plus d'informations sur la suppression de termes d'un modèle, reportez-vous à la rubrique Réduction du modèle.
Si un terme d'un modèle est statistiquement significatif, l'interprétation dépend du type de terme concerné. Les interprétations sont les suivantes :
  • Si un prédicteur continu est significatif, vous pouvez en conclure que le coefficient de ce prédicteur est différent de zéro.
  • Si un prédicteur de catégorie est significatif, vous pouvez en conclure que les moyennes des niveaux ne sont pas toutes égales.
  • Si un terme d'interaction est significatif, vous pouvez en conclure que la relation entre un prédicteur et la réponse dépend des autres prédicteurs du terme.
  • Si un terme polynomial est significatif, vous pouvez en conclure que les données contiennent une courbure.

Valeur de p - Inadéquation de l'ajustement

La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude. Minitab effectue automatiquement le test d'inadéquation de l'ajustement avec erreur pure lorsque vos données contiennent des répliques, à savoir des observations ayant des valeurs de x identiques. Les répliques constituent une "erreur pure", car seule la variation aléatoire peut entraîner des différences entre des valeurs de réponse observées.

Interprétation

Pour déterminer si le modèle rend correctement compte de la relation entre la réponse et les prédicteurs, comparez la valeur de p du test d'inadéquation de l'ajustement à votre seuil de signification pour évaluer l'hypothèse nulle. L'hypothèse nulle pour le test d'inadéquation de l'ajustement est que le modèle rend correctement compte de la relation entre la réponse et les prédicteurs. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique 5 % de risque de conclure à tort que le modèle ne rend pas correctement compte de la relation entre la réponse et les prédicteurs.
Valeur de p ≤ α : l'inadéquation de l'ajustement est statistiquement significative.
Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez en conclure que le modèle ne rend pas correctement compte de la relation. Pour améliorer le modèle, vous devez peut-être ajouter des termes ou transformer vos données.
Valeur de p > α : l'inadéquation de l'ajustement n'est pas statistiquement significative.

Si la valeur de p est supérieure au seuil de signification, le test ne détecte aucune inadéquation de l'ajustement.