Parcelles résiduelles pour Ajuster le modèle de régression et Regressão Linear

Trouvez des définitions et des conseils d’interprétation pour chaque parcelle résiduelle.

Histogramme des valeurs résiduelles

L'histogramme des valeurs résiduelles montre la distribution des valeurs résiduelles pour toutes les observations.

Interprétation

Utilisez l'histogramme des valeurs résiduelles afin de déterminer si les données présentent une asymétrie ou des valeurs aberrantes. Les schémas décrits dans le tableau suivant peuvent indiquer que le modèle ne vérifie pas les hypothèses.
Schéma Ce que le schéma indique
Une queue allongée dans une direction Asymétrie
Une barre éloignée des autres Une valeur aberrante

Sachant que l'apparence d'un histogramme dépend du nombre d'intervalles utilisé pour regrouper les données, n'utilisez pas d'histogramme pour évaluer la normalité des valeurs résiduelles. Utilisez plutôt une droite de Henry.

Les résultats d'un histogramme sont plus pertinents lorsque vous avez au moins 20 points de données. Si l'échantillon est trop réduit, les barres de l'histogramme ne contiennent pas suffisamment de points de données pour indiquer une asymétrie ou des valeurs aberrantes de manière fiable.

Droite de Henry des valeurs résiduelles

La droite de Henry des valeurs résiduelles affiche les valeurs résiduelles en fonction de leurs valeurs attendues lorsque la loi de distribution est normale.

Interprétation

Utilisez la droite de Henry des valeurs résiduelles afin de vérifier l'hypothèse selon laquelle les valeurs résiduelles sont normalement distribuées. La droite de Henry des valeurs résiduelles doit suivre approximativement une ligne droite.

Les schémas suivants contredisent l'hypothèse selon laquelle les valeurs résiduelles sont normalement distribuées.

Une courbe S implique une distribution aux extrémités allongées.

Une courbe S inversée implique une distribution aux extrémités écourtées.

Une courbe descendante implique une loi asymétrique à droite.

Quelques points situés loin de la ligne impliquent une distribution comportant des valeurs aberrantes.

Si vous observez un schéma non normal, utilisez les autres graphiques des valeurs résiduelles pour rechercher tout autre problème éventuel avec le modèle, tel que des termes manquants ou l'effet d'un ordre temporel. Si les valeurs résiduelles ne suivent pas une loi normale, les intervalles de confiance et les valeurs de p peuvent être inexacts.

Valeurs résiduelles en fonction des valeurs ajustées

Le diagramme des valeurs résiduelles en fonction des valeurs ajustées affiche les valeurs résiduelles sur l'axe des y et les valeurs ajustées sur l'axe des x.

Interprétation

Utilisez le diagramme des valeurs résiduelles en fonction des valeurs ajustées pour vérifier l'hypothèse selon laquelle les valeurs résiduelles suivent une loi normale et ont une variance constante. Dans l'idéal, les points doivent être répartis aléatoirement des deux côtés de 0, sans schéma reconnaissable.

Les schémas dans le tableau suivant peuvent indiquer que le modèle ne répond pas aux hypothèses du modèle.
Schéma Ce que le schéma peut indiquer
Eparpillement ou répartition déséquilibrée des valeurs résiduelles en fonction des valeurs ajustées Variance non constante
Curviligne Un terme d'ordre supérieur manquant
Un point très éloigné de zéro Une valeur aberrante
Un point éloigné des autres points dans le sens des x Un point influent
Les graphiques suivants présentent une valeur aberrante et contredisent l'hypothèse selon laquelle la variance des valeurs résiduelles est constante.
Graphique avec valeur aberrante

Un des points a une valeur beaucoup élevée que tous les autres. Il s'agit donc d'une valeur aberrante. S'il existe un trop grand nombre de valeurs aberrantes, le modèle n'est peut-être pas acceptable. Vous devez essayer de déterminer la cause de toutes les valeurs aberrantes. Corrigez les erreurs de mesure ou d’entrée des données. Pensez éventuellement à supprimer les valeurs de données associées à des événements anormaux et uniques (causes spéciales). Ensuite, répétez l'analyse.

Graphique avec variance non constante

La variance des valeurs résiduelles augmente avec les valeurs ajustées. Plus les valeurs ajustées augmentent, plus les valeurs résiduelles sont dispersées. Ce schéma indique que les variances des valeurs résiduelles sont inégales (non constantes).

Si vous identifiez des tendances ou des valeurs aberrantes dans votre graphique des valeurs résiduelles en fonction des valeurs ajustées, vous pouvez envisager les solutions suivantes :

Problème Solution possible
Variance non constante Vous pouvez utiliser la fonction Ajuster le modèle de régression avec une transformation de Box-Cox.
Une valeur aberrante ou un point influant
  1. Vérifiez que l'observation n'est pas une erreur de mesure ou de saisie de données.
  2. Vous pouvez essayer d'exécuter l'analyse sans cette observation pour déterminer son influence sur vos résultats.

Valeurs résiduelles en fonction de l'ordre

Le diagramme des valeurs résiduelles en fonction de l'ordre affiche les valeurs résiduelles dans l'ordre dans lequel les données ont été collectées.

Interprétation

Utilisez le diagramme des valeurs résiduelles en fonction de l'ordre pour vérifier l'hypothèse selon laquelle les valeurs résiduelles sont indépendantes les unes par rapport aux autres. Les valeurs résiduelles indépendantes ne présentent aucune tendance ou schéma lorsqu'elles sont affichées dans un ordre chronologique. La présence de schémas dans les points peut indiquer que les valeurs résiduelles qui sont proches les unes des autres peuvent être corrélées, et ne sont donc pas indépendantes. Idéalement, les valeurs résiduelles du graphique doivent être réparties de façon aléatoire autour de la ligne centrale.
Si vous observez un schéma, étudiez-en la cause. Les types de schémas suivants peuvent indiquer que les valeurs résiduelles sont corrélées.
Tendance
Equipe
Cycle

Valeurs résiduelles en fonction des variables

Le diagramme des valeurs résiduelles en fonction des variables affiche les valeurs résiduelles en fonction d'une autre variable. La variable peut déjà être présente dans votre modèle. Il se peut aussi que la variable ne soit pas dans le modèle, mais que vous la soupçonniez d'avoir un effet sur la réponse.

Interprétation

Si vous observez un schéma non aléatoire dans les valeurs résiduelles, cela signifie que la variable influe sur la réponse de manière systématique. Vous devez sans doute inclure cette variable dans une analyse.

Diagrammes des valeurs résiduelles pour un ensemble de données de test

Minitab crée des diagrammes des valeurs résiduelles distincts pour l'ensemble de données d'apprentissage et l'ensemble de données de test. Les valeurs résiduelles de l'ensemble de données de test sont indépendantes du procédé d'ajustement du modèle.

Interprétation

Étant donné que les ensembles de données d'apprentissage et de test proviennent généralement de la même population, vous vous attendez à voir les mêmes schémas dans les diagrammes des valeurs résiduelles pour chaque ensemble de données. Des schémas différents dans les diagrammes des valeurs résiduelles pourraient indiquer une différence systématique entre les observations dans l'ensemble de données d'apprentissage et l'ensemble de données de test.

Bien que les schémas soient généralement les mêmes, les diagrammes des valeurs résiduelles de l'ensemble de données de test peuvent être légèrement différents des diagrammes de l'ensemble de données d'apprentissage. Par exemple, comme l'ensemble de données de test ne se trouve pas dans le procédé d'ajustement du modèle, la moyenne des valeurs résiduelles peut être non nulle.