Méthodes et formules pour la fonction Test des valeurs aberrantes

Sélectionnez la méthode ou la formule de votre choix.

Statistiques de test de Dixon

Le test de Dixon détermine si la valeur la plus extrême d'un échantillon est aberrante. Le test de Dixon comprend un choix de statistiques de test qui permettent de contourner les éventuels effets de masque des autres valeurs extrêmes de l'échantillon. La statistique de test de Dixon est notée rij, où les indices i et j indiquent ce qui suit :
  • i indique le nombre de valeurs extrêmes sur un même côté des données (inférieur ou supérieur) soupçonnées d'être des valeurs aberrantes. i = 1 ou 2.
  • j indique le nombre de valeurs extrêmes situées du côté opposé des données. j = 0, 1 ou 2.

Par exemple, si la valeur aberrante soupçonnée est la plus petite valeur de l'échantillon, mais que celui-ci comprend également deux valeurs inhabituellement grandes, alors r12 est la statistique de test adaptée. La statistique de test r10 (aussi appelée test Q de Dixon) est adaptée lorsque l'échantillon comprend seulement une valeur extrême.

Les valeurs critiques pour les statistiques de test de Dixon sont tabulées d'après Rorabacher (1991).

Statistiques de test unilatéral

La formule du test unilatéral varie selon que vous testiez la plus petite valeur, yi, ou la plus grande, yn. Pour tester si yi est la valeur aberrante, utilisez la formule suivante :
Pour tester si yn est la valeur aberrante, utilisez la formule suivante :

Statistiques de test bilatéral

Nous définissons la statistique de test bilatéral comme la définit King (1953) par rapport à r10. La statistique de test bilatéral s'obtient comme suit :

Notation

TermeDescription
rijstatistique de test de Dixon (i = 1, 2 ; j = 0, 1, 2)
yiie plus petite valeur de l'échantillon
nnombre d'observations dans l'échantillon

Références

  • D. B. Rorabacher (1991), "Statistical Treatment for Rejection of Deviant Values: Critical Values of Dixon Q Parameter and Related Subrange Ratios at the 95 percent Confidence Level", Analytic Chemistry, 83, 2, 139-146.
  • E. P. King (1953), "On Some Procedures for the Rejection of Suspected Data", Journal of the American Statistical Association, vol. 48, No. 263, 531-533.

Statistique de test de Grubb

Formule pour la statistique unilatérale

Si vous effectuez ce test pour savoir si la valeur de la plus petite donnée est aberrante, le calcul de la statistique de test G se fait comme suit :
Si vous effectuez ce test pour savoir si la valeur de la plus grande donnée est aberrante, G se calcule comme suit :

Formule pour la statistique bilatérale

Pour une hypothèse bilatérale, G s'obtient comme suit :

Notation

TermeDescription
moyenne de l'échantillon
yiie plus petite valeur de l'échantillon
sécart type de l'échantillon
nnombre d'observations dans l'échantillon

Valeurs de p pour les statistiques de test de Dixon

En supposant que les données sont normalement distribuées, les statistiques de Dixon ont la même distribution que vous testiez la plus petite ou la plus grande valeur. Donc, sans perte de généralité, nous pouvons nous concentrer sur les statistiques pour détecter les valeurs aberrantes de l'extrémité élevée des données, soit :

Fonction de distribution cumulée pour la statistique de test

D'après Dixon (1951) et McBane (2006), les fonctions de densité de probabilité de la distribution des statistiques de test rij peuvent s'écrire comme suit :
où C est le facteur de normalisation obtenu par :
et le jacobien J(x,v,r) est obtenu par :
Si l'on utilise la transformation où t = (1 + r2 ) v2 / 2 et u2 = 3x2 / 2, la fonction de densité peut s'écrire comme suit :

Minitab évalue l'entier interne à l'aide d'une quadrature à 30 points de Gauss-Laguerre. Minitab évalue l'entier externe à l'aide d'une quadrature à 30 points de Gauss-Laguerre.

Les fonctions de distribution cumulée de la famille de statistiques de test s'obtient comme suit :

Comme McBane (2006), Minitab calcule Fij(r) à l'aide de la méthode de quadrature à 16 points de Gauss-Laguerre.

Valeur de p pour le test unilatéral

Pour toute paire d'indices (i, j), la valeur de p pour la statistique unilatérale observée s'obitent comme suit :

Valeur de p pour le test unilatéral

Si l'on utilise le résultat de King (1953), pour toute paire d'indices (i, j), la valeur de p pour la statistique bilatérale observée, r, s'obtient comme suit :

Par ailleurs, King observe que l'approximation ci-dessus devient une égalité pour .

Notation

TermeDescription
rijstatistique de Dixon, où i = 1, 2; j = 0, 1, 2
yiie plus petite valeur de l'échantillon
nnombre d'observations dans l'échantillon

Références

W. J. Dixon (1951), "Ratios Involving Extreme Values", Annals of Mathematical Statistics, 22(1), 68-78.

E. P. King (1953), "On Some Procedures for the Rejection of Suspected Data", Journal of the American Statistical Association, vol. 48, No. 263, pages 531-533.

G. C. McBane (2006), "Programs to Compute Distribution Functions and Critical Values for Extreme Value Ratios for Outlier Detection", Journal of Statistical Software, vol. 16, No. 3, pages 1-9.

Valeur de p pour la statistique de test de Grubb

Formule pour un test unilatéral

La valeur de p pour un test unilatéral est :

Formule pour un test bilatéral

La valeur de p pour un test bilatéral est :

Valeurs de p exactes ou approximatives

Si ce qui suit est vrai, alors la valeur de p est exacte.

Dans le cas contraire, la valeur de p calculée représente une borne supérieure pour la valeur de p exacte. Cependant, la borne supérieure donne une très bonne idée de la valeur exacte de p.

Notation

TermeDescription
Gstatistique de test de Grubb
nnombre d'observations dans l'échantillon
Tvariable aléatoire distribuée selon la loi de distribution t, avec n - 2 degrés de liberté