Graphiques des valeurs résiduelles pour la fonction Analyser une réponse binaire pour un plan de criblage définitif

Histogramme des valeurs résiduelles

L'histogramme des valeurs résiduelles des sommes des carrés d'écart montre la distribution des valeurs résiduelles pour toutes les observations.

Que vous utilisiez les valeurs résiduelles de la somme des carrés d'écart ou de Pearson, l'interprétation du graphique est la même. Lorsque le modèle utilise la fonction de liaison logit, la loi de distribution des valeurs résiduelles de la somme des carrés d'écart est plus proche de la loi de distribution des valeurs résiduelles issues d'un modèle de régression sur les moindres carrés. Plus le nombre d'essais pour chaque combinaison de paramètres de prévision augmente, plus les valeurs résiduelles de la somme des carrés d'écart et de Pearson deviennent similaires.

Interprétation

Utilisez l'histogramme des valeurs résiduelles afin de déterminer si les données sont symétriques ou si elles contiennent des valeurs aberrantes. Les schémas du tableau suivant peuvent indiquer que le modèle n'est pas adapté. Lorsque le modèle ne respecte pas les hypothèses, les intervalles de confiance obtenus par approximation normale pour les prévisions sont probablement inexacts.
Schéma Ce que le schéma indique
Longue extrémité dans une direction Asymétrie
Barre éloignée des autres Une valeur aberrante

Comme l'apparence de l'histogramme dépend du nombre d'intervalles utilisés pour regrouper les données, n'évaluez pas la normalité des valeurs résiduelles à l'aide d'un histogramme. Utilisez plutôt une droite de Henry.

Droite de Henry des valeurs résiduelles

La droite de Henry des valeurs résiduelles affiche les valeurs résiduelles en fonction de leurs valeurs attendues lorsque la loi de distribution est normale.

Que vous utilisiez les valeurs résiduelles de la somme des carrés d'écart ou de Pearson, l'interprétation du graphique est la même. Lorsque le modèle utilise la fonction de liaison logit, la loi de distribution des valeurs résiduelles de la somme des carrés d'écart est plus proche de la loi de distribution des valeurs résiduelles issues d'un modèle de régression sur les moindres carrés. Plus le nombre d'essais pour chaque combinaison de paramètres de prévision augmente, plus les valeurs résiduelles de la somme des carrés d'écart et de Pearson deviennent similaires.

Interprétation

Utilisez la droite de Henry des valeurs résiduelles afin de vérifier l'hypothèse selon laquelle les valeurs résiduelles sont normalement distribuées. La droite de Henry des valeurs résiduelles doit suivre approximativement une ligne droite.

Les schémas suivants contredisent l'hypothèse selon laquelle les valeurs résiduelles sont normalement distribuées.

Une courbe S implique une distribution aux extrémités allongées.

Une courbe S inversée implique une distribution aux extrémités écourtées.

Une courbe descendante implique une loi asymétrique à droite.

Quelques points situés loin de la ligne impliquent une distribution comportant des valeurs aberrantes.

Si vous observez une tendance non normale, utilisez les autres graphiques des valeurs résiduelles pour rechercher tout autre problème éventuel avec le modèle, tel que des termes manquants ou l'effet d'un ordre temporel. Si les valeurs résiduelles ne suivent pas une loi normale, les intervalles de confiance pour l'approximation selon la loi normale et les valeurs de p du test Wald peuvent être inexacts.

Valeurs résiduelles en fonction des valeurs ajustées

Le diagramme des valeurs résiduelles en fonction des valeurs ajustées affiche les valeurs résiduelles sur l'axe des y et le logit des valeurs ajustées sur l'axe des x.
Remarque

Pour la régression logistique binaire, Minitab ne propose pas ce diagramme lorsque les données sont au format réponse binaire/fréquence (un seul essai par ligne).

Que vous utilisiez les valeurs résiduelles de la somme des carrés d'écart ou de Pearson, l'interprétation du graphique est la même. Lorsque le modèle utilise la fonction de liaison logit, la loi de distribution des valeurs résiduelles de la somme des carrés d'écart est plus proche de la loi de distribution des valeurs résiduelles issues d'un modèle de régression sur les moindres carrés. Plus le nombre d'essais pour chaque combinaison de paramètres de prévision augmente, plus les valeurs résiduelles de la somme des carrés d'écart et de Pearson deviennent similaires.

Interprétation

Utilisez le diagramme des valeurs résiduelles en fonction des valeurs ajustées pour vérifier l'hypothèse selon laquelle les valeurs résiduelles sont normalement distribuées. Dans l'idéal, les points doivent être répartis aléatoirement des deux côtés de 0, sans schéma reconnaissable.

Les schémas du tableau suivant peuvent indiquer que le modèle n'est pas adapté.
Schéma Ce que le schéma indique
Eparpillement ou répartition déséquilibrée des valeurs résiduelles en fonction des valeurs ajustées Une fonction de liaison inadaptée
Curviligne Un terme d'ordre supérieur manquant ou une fonction de liaison inadaptée
Un point très éloigné de zéro Une valeur aberrante
Un point éloigné des autres points dans le sens des x Un point influent
Les graphiques suivants présentent une valeur aberrante et contredisent l'hypothèse selon laquelle la variance des valeurs résiduelles est constante.
Graphique avec valeur aberrante

Un des points a une valeur beaucoup élevée que tous les autres. Il s'agit donc d'une valeur aberrante. S'il existe un trop grand nombre de valeurs aberrantes, le modèle n'est peut-être pas acceptable. Vous devez essayer de déterminer la cause de toutes les valeurs aberrantes. Corrigez les erreurs de mesure ou d’entrée des données. Pensez éventuellement à supprimer les valeurs de données associées à des événements anormaux et uniques (causes spéciales). Ensuite, répétez l'analyse.

Graphique avec variance non constante

La variance des valeurs résiduelles augmente avec les valeurs ajustées. Plus les valeurs ajustées augmentent, plus les valeurs résiduelles sont dispersées. Ce schéma indique que les variances des valeurs résiduelles sont inégales (non constantes).

Si vous repérez des schémas ou des valeurs aberrantes dans votre diagramme des valeurs résiduelles en fonction des valeurs ajustées, les solutions suivantes sont disponibles :
Problème Solution possible
Variance non constante Envisagez d'utiliser d'autres termes dans le modèle, une autre fonction de liaison ou des pondérations
Une valeur aberrante ou un point influant
  1. Vérifiez que l'observation n'est pas une erreur de mesure ou de saisie de données.
  2. Vous pouvez essayer d'exécuter l'analyse sans cette observation pour déterminer son influence sur vos résultats.

Valeurs résiduelles en fonction de l'ordre

Le diagramme des valeurs résiduelles en fonction de l'ordre affiche les valeurs résiduelles dans l'ordre dans lequel les données ont été collectées.

Que vous utilisiez les valeurs résiduelles de la somme des carrés d'écart ou de Pearson, l'interprétation du graphique est la même. Lorsque le modèle utilise la fonction de liaison logit, la loi de distribution des valeurs résiduelles de la somme des carrés d'écart est plus proche de la loi de distribution des valeurs résiduelles issues d'un modèle de régression sur les moindres carrés. Plus le nombre d'essais pour chaque combinaison de paramètres de prévision augmente, plus les valeurs résiduelles de la somme des carrés d'écart et de Pearson deviennent similaires.

Interprétation

Utilisez le diagramme des valeurs résiduelles en fonction de l'ordre pour vérifier l'hypothèse selon laquelle les valeurs résiduelles sont indépendantes les unes par rapport aux autres. Les valeurs résiduelles indépendantes ne présentent aucune tendance ou schéma lorsqu'elles sont affichées dans un ordre chronologique. La présence de schémas dans les points peut indiquer que les valeurs résiduelles qui sont proches les unes des autres peuvent être corrélées, et ne sont donc pas indépendantes. Idéalement, les valeurs résiduelles du graphique doivent être réparties de façon aléatoire autour de la ligne centrale.
Si vous observez un schéma, étudiez-en la cause. Les types de schémas suivants peuvent indiquer que les valeurs résiduelles sont corrélées.
Tendance
Equipe
Cycle

Valeurs résiduelles en fonction des variables

Le diagramme des valeurs résiduelles en fonction des variables affiche les valeurs résiduelles en fonction d'une autre variable. La variable peut déjà être présente dans votre modèle. Il se peut aussi que la variable ne soit pas dans le modèle, mais que vous la soupçonniez d'avoir un effet sur la réponse.

Que vous utilisiez les valeurs résiduelles de la somme des carrés d'écart ou de Pearson, l'interprétation du graphique est la même. Lorsque le modèle utilise la fonction de liaison logit, la loi de distribution des valeurs résiduelles de la somme des carrés d'écart est plus proche de la loi de distribution des valeurs résiduelles issues d'un modèle de régression sur les moindres carrés. Plus le nombre d'essais pour chaque combinaison de paramètres de prévision augmente, plus les valeurs résiduelles de la somme des carrés d'écart et de Pearson deviennent similaires.

Interprétation

Si la variable figure déjà dans le modèle, utilisez le diagramme pour déterminer si vous devez ajouter un terme d'ordre supérieur à la variable. Si la variable ne se trouve pas encore dans le modèle, utilisez le diagramme pour déterminer si elle influence la réponse de manière systématique.

Les schémas ci-dessous peuvent indiquer une variable ou un terme important.
Schéma Ce que le schéma indique
Schéma dans les valeurs résiduelles La variable influe sur la réponse de manière systématique. Si la variable ne figure pas dans votre modèle, incluez un terme pour elle et réajustez le modèle.
Courbure décrite par les points Un terme d'ordre supérieur de la variable doit être inclus dans le modèle. Par exemple, un schéma en courbe indique que vous devez ajouter un terme quadratique.