Qu'est-ce qu'une observation aberrante ?

Les observations aberrantes (également appelées observations influentes) sont des observations qui ont un impact disproportionné sur un modèle de régression ou d'ANOVA. Il est important de détecter les observations aberrantes, car elles peuvent générer des résultats pouvant vous induire en erreur. Par exemple, une observation aberrante peut laisser croire qu'un coefficient significatif ne l'est pas.

Il existe deux types d'observations aberrantes :
  • Les points à effet de levier, qui sont des valeurs extrêmes dans le sens des X
  • Les valeurs aberrantes (valeurs résiduelles élevées), qui sont des valeurs extrêmes dans le sens des Y par rapport à la droite de régression ajustée

Repérer les observations aberrantes

Pour identifier les observations aberrantes, étudiez les mesures de diagnostic (parmi lesquelles les valeurs d'effet de levier, les valeurs résiduelles, les distances de Cook et les DFITS). Des valeurs élevées de ces statistiques indiquent qu'une observation est peut-être aberrante. Minitab marque les observations ayant des valeurs d'effet de levier ou des valeurs résiduelles (pour les valeurs aberrantes) extrêmes dans le tableau des observations aberrantes comme indiqué ci-dessous :
  • La lettre X signale un point ayant une valeur d'effet de levier élevée. Minitab marque les valeurs d'effet de levier supérieures à 3 * Nombre de termes du modèle/Nombre d'observations, ou les valeurs d'effet de levier supérieures à 0,99, en se fondant en priorité sur la plus petite de ces valeurs.
  • La lettre R signale une valeur résiduelle normalisée extrême. Minitab marque les valeurs résiduelles normalisées ayant des valeurs absolues supérieures à 2.

Les observations signalées par Minitab suivent mal l'équation de régression proposée. Toutefois, il est normal d'obtenir quelques observations aberrantes. Par exemple, en vous fondant sur les critères de valeurs résiduelles élevées, vous pouvez vous attendre à ce qu'environ 5 % de vos observations soient signalées pour leur valeur résiduelle importante.

Exemple de tableau des observations aberrantes

Ajustements et diagnostics pour les observations aberrantes Val. Flux Valeur résid. Observation thermique ajustée Résiduelle norm. 1 271,80 274,74 -2,94 -0,40 X 22 254,50 230,91 23,59 2,74 R R : Valeur résiduelle élevée X : Valeur de X aberrante

Dans les résultats précédents, l'observation 1 est signalée par un X, indiquant qu'il s'agit d'un point à effet de levier. L'observation 22, signalée par un R, est une valeur aberrante.

Déterminer l'impact des observations aberrantes sur le modèle

Pour déterminer l'influence de l'observation aberrante, vous pouvez ajuster le modèle avec et sans l'observation, et comparer les coefficients, les valeurs de p, le R2 et d'autres paramètres des deux modèles. Si le modèle change de manière significative lorsque vous supprimez l'observation aberrante, déterminez si celle-ci est due à une erreur de saisie des données ou de mesure. Si ce n'est pas le cas, étudiez le modèle plus en profondeur afin de déterminer si vous avez omis une variable ou un terme important (par exemple un terme d'interaction), ou si vous avez mal défini le modèle. Il peut être nécessaire de collecter davantage de données pour résoudre le problème.