Méthodes d'identification des valeurs aberrantes dans une régression ou une ANOVA

Dans le domaine des analyses d'ajustement de modèles, les valeurs aberrantes sont des observations qui présentent des valeurs de réponse ou de prédicteur supérieures à la moyenne. Minitab permet d'identifier les valeurs aberrantes de différentes manières, notamment à l'aide des graphiques des valeurs résiduelles et de trois statistiques stockées : l'effet de levier, la distance de Cook et la valeur DFIT. Il est important d'identifier les valeurs aberrantes car elles peuvent influencer significativement votre modèle, au risque de générer des résultats trompeurs ou incorrects. Si vous identifiez une valeur aberrante dans les données, vous devez examiner l'observation afin de comprendre la raison de son caractère aberrant et de déterminer une solution adaptée.
Hi (effet de levier)

Un effet de levier (Hi) mesure la distance entre la valeur de X d'une observation et la moyenne des valeurs de X de toutes les observations d'un ensemble de données. Elle permet d'identifier les observations présentant des valeurs de prédicteurs aberrantes par rapport au reste des données.

Les observations à fort effet de levier peuvent avoir un effet important sur la valeur ajustée et, par conséquent, sur le modèle de régression. Par exemple, une observation présentant un fort effet de levier peut laisser croire qu'un coefficient significatif ne l'est pas. Toutefois, tous les points à effet de levier ne sont pas des observations aberrantes.

Examinez les observations dont les valeurs DFITS sont supérieures à 2*p/n, où p représente le nombre de termes du modèle (constante comprise) et n le nombre d'observations. Dans le tableau des observations aberrantes, Minitab affecte un X aux observations qui présentent soit un effet de levier supérieur à 3p/n soit la valeur 0,99, en considérant en priorité la plus petite de ces valeurs.

Distance de Cook (D)

Géométriquement, la distance de Cook est une mesure de la distance entre les valeurs ajustées calculées avec et sans la ie observation. Elle permet d'identifier les observations présentant des valeurs de prédicteurs aberrantes par rapport au reste des données, ainsi que les observations auxquelles le modèle n'est pas correctement ajusté. Les observations présentant de grandes distances de Cook peuvent avoir un effet important sur la valeur ajustée et, par conséquent, sur le modèle de régression.

Vérifiez les observations dans lesquelles la valeur D est supérieure à F(0,5, p, n-p), la médiane d'une loi F, où p représente le nombre de termes du modèle (constante comprise) et n le nombre d'observations. Une autre méthode pour examiner les valeurs de distances consiste à les comparer les unes aux autres à l'aide d'un graphique linéaire. Les observations présentant des distances importantes par rapport à d'autres observations peuvent être influentes.

DFITS

La valeur DFITS exprime approximativement le changement, en nombre d'écarts types, de la valeur ajustée lorsque chaque observation est supprimée de l'ensemble de données et que le modèle est réajusté. Elle permet d'identifier les observations présentant des valeurs de prédicteurs aberrantes par rapport au reste des données, ainsi que les observations auxquelles le modèle n'est pas correctement ajusté. Les observations présentant de grandes valeurs DFITS peuvent avoir un effet important sur la valeur ajustée et, par conséquent, sur le modèle de régression.

Examinez les observations dont les valeurs de DFITS sont supérieures à 2*racine carrée (p / n), où p représente le nombre de termes du modèle (constante comprise) et n le nombre d'observations. Une autre méthode pour examiner les valeurs DFITS consiste à les comparer les unes aux autres à l'aide d'un diagramme de série chronologique ou d'un graphique linéaire. Les observations présentant de grandes valeurs DFITS par rapport aux autres observations peuvent être influentes.

Pour déterminer l'influence de l'observation aberrante, vous pouvez ajuster le modèle avec et sans l'observation, puis comparer les coefficients, les valeurs de p, le R2 et d'autres paramètres des deux modèles. Si le modèle change de manière significative lorsque vous supprimez l'observation aberrante, déterminez si celle-ci est due à une erreur de saisie des données ou de mesure. Si ce n'est pas le cas, déterminez si vous avez omis une variable ou un terme important (par exemple un terme d'interaction), ou si vous avez mal défini le modèle. Il peut être nécessaire de collecter davantage de données pour résoudre le problème.