L'histogramme des valeurs résiduelles montre la distribution des valeurs résiduelles pour toutes les observations.
Schéma | Ce que le schéma indique |
---|---|
Une queue allongée dans une direction | Asymétrie |
Une barre éloignée des autres | Une valeur aberrante |
Sachant que l'apparence d'un histogramme dépend du nombre d'intervalles utilisé pour regrouper les données, n'utilisez pas d'histogramme pour évaluer la normalité des valeurs résiduelles. Utilisez plutôt une droite de Henry.
Les résultats d'un histogramme sont plus pertinents lorsque vous avez au moins 20 points de données. Si l'échantillon est trop réduit, les barres de l'histogramme ne contiennent pas suffisamment de points de données pour indiquer une asymétrie ou des valeurs aberrantes de manière fiable.
La droite de Henry des valeurs résiduelles affiche les valeurs résiduelles en fonction de leurs valeurs attendues lorsque la loi de distribution est normale.
Utilisez la droite de Henry des valeurs résiduelles afin de vérifier l'hypothèse selon laquelle les valeurs résiduelles sont normalement distribuées. La droite de Henry des valeurs résiduelles doit suivre approximativement une ligne droite.
Si vous observez un schéma non normal, utilisez les autres graphiques des valeurs résiduelles pour rechercher tout autre problème éventuel avec le modèle, tel que des termes manquants ou l'effet d'un ordre temporel. Si les valeurs résiduelles ne suivent pas une loi normale, les intervalles de confiance et les valeurs de p peuvent être inexacts.
Le diagramme des valeurs résiduelles en fonction des valeurs ajustées affiche les valeurs résiduelles sur l'axe des y et les valeurs ajustées sur l'axe des x.
Utilisez le diagramme des valeurs résiduelles en fonction des valeurs ajustées pour vérifier l'hypothèse selon laquelle les valeurs résiduelles suivent une loi normale et ont une variance constante. Dans l'idéal, les points doivent être répartis aléatoirement des deux côtés de 0, sans schéma reconnaissable.
Schéma | Ce que le schéma peut indiquer |
---|---|
Eparpillement ou répartition déséquilibrée des valeurs résiduelles en fonction des valeurs ajustées | Variance non constante |
Curviligne | Un terme d'ordre supérieur manquant |
Un point très éloigné de zéro | Une valeur aberrante |
Un point éloigné des autres points dans le sens des x | Un point influent |
Si vous identifiez des tendances ou des valeurs aberrantes dans votre graphique des valeurs résiduelles en fonction des valeurs ajustées, vous pouvez envisager les solutions suivantes :
Problème | Solution possible |
---|---|
Variance non constante | Vous pouvez utiliser la fonction Ajuster le modèle de régression avec une transformation de Box-Cox. |
Une valeur aberrante ou un point influant |
|
Le diagramme des valeurs résiduelles en fonction de l'ordre affiche les valeurs résiduelles dans l'ordre dans lequel les données ont été collectées.
Le diagramme des valeurs résiduelles en fonction des variables affiche les valeurs résiduelles en fonction d'une autre variable. La variable peut déjà être présente dans votre modèle. Il se peut aussi que la variable ne soit pas dans le modèle, mais que vous la soupçonniez d'avoir un effet sur la réponse.
Si vous observez un schéma non aléatoire dans les valeurs résiduelles, cela signifie que la variable influe sur la réponse de manière systématique. Vous devez sans doute inclure cette variable dans une analyse.
Étant donné que les ensembles de données d'apprentissage et de test proviennent généralement de la même population, vous vous attendez à voir les mêmes schémas dans les diagrammes des valeurs résiduelles pour chaque ensemble de données. Des schémas différents dans les diagrammes des valeurs résiduelles pourraient indiquer une différence systématique entre les observations dans l'ensemble de données d'apprentissage et l'ensemble de données de test.
Bien que les schémas soient généralement les mêmes, les diagrammes des valeurs résiduelles de l'ensemble de données de test peuvent être légèrement différents des diagrammes de l'ensemble de données d'apprentissage. Par exemple, comme l'ensemble de données de test ne se trouve pas dans le procédé d'ajustement du modèle, la moyenne des valeurs résiduelles peut être non nulle.