外れ値検定の方法と計算式

目的の方法または計算式を選択してください。

Dixonの検定統計量

Dixonの検定では、サンプルに含まれる最も極端な値が外れ値かどうかを判断します。Dixonの検定には、サンプルに含まれるその他の極端な値の遮へい効果の可能性を防ぐ検定統計量の選択が含まれます。Dixonの検定統計量はrijで示され、下付き文字ijは以下を示しています。
  • iは、外れ値の疑いがあるデータの同じ側(低いまたは高い)にある極端な値を示します。i = 1または2です。
  • jはデータの反対側にある極端な値の数を示します。j = 0、1、または2です。

たとえば、外れ値の疑いがある値がサンプルの最小値でありながら、異常に大きな値も2つサンプルに含まれている場合、r12が適切な検定統計量です。検定統計量r10(DixonのQとも呼ばれる)は、サンプルに極端な値が1つしか含まれない場合に適しています。

Dixonの検定統計量の棄却値は、Rorabacherが表にしています(1991年)。

片側検定統計量

片側検定の計算式は、最小値yiを検定するか、それとも最大値ynを検定するかによって異なります。yiが外れ値かどうかを検定するには、次の計算式を使用します。
ynが外れ値かどうかを検定するには、次の計算式を使用します。

両側検定統計量

両側検定統計量は、King(1953年)がr10に関して両側検定統計量を定義しているように定義します。両側検定統計量は次のように求められます。

表記

用語説明
rijDixonの検定統計量(i = 1, 2、j = 0, 1, 2)
yiサンプルに含まれるi番目に小さい値
nサンプルに含まれる観測値数

参考文献

  • D.B. Rorabacher (1991). "Statistical Treatment for Rejection of Deviant Values: Critical Values of Dixon Q Parameter and Related Subrange Ratios at the 95 percent Confidence Level," Analytic Chemistry, 83, 2, 139-146.
  • E.P. King (1953). "On Some Procedures for the Rejection of Suspected Data," Journal of the American Statistical Association, Vol. 48, No. 263, 531-533.

Grubbsの検定統計量

片側統計量の計算式

最小のデータ値が外れ値かどうかを検定する場合、検定統計量Gは次のように求められます。
最大のデータ値が外れ値かどうかを検定する場合、Gは次のように求められます。

両側統計量の計算式

両側仮説の場合、Gは次のように求められます。

表記

用語説明
サンプル平均
yiサンプルに含まれるi番目に小さい値
sサンプルの標準偏差
nサンプルに含まれる観測値数

Dixonの検定統計量のp値

データが正規分布になっていることを仮定して、Dixonの統計量では最小値を検定する場合も最大値を検定する場合も同じ分布となります。そのため、一般性を失うことなく、データの端で外れ値を検出するために統計量に集中できます。具体的には次のようになります。

検定統計量の累積分布関数

Dixon(1951年)とMcBane(2006年)によると、検定統計量rijの確率密度関数は次のように記述できます。
ここで、Cは次のように指定される正規化因子です。
関数行列式J(x,v,r)は次のように指定されます。
t = (1 + r2 ) v2 / 2およびu2 = 3x2 / 2の変換を使用して、密度関数は次のように記述できます。

Minitabは30点のGauss-Laguerreの求積法を使用して内積分を評価します。Minitabは30点のGauss-Hermiteの求積法を使用して外積分を評価します。

この族の検定統計量の累積分布関数は次のように指定されます。

McBane(2006年)と同じように、Minitabは16点のGauss-Legendreの求積法を使用してFij(r)を計算します。

片側検定のp値

下付き文字(ij)のペアについて、観測される片側統計値rのp値は次のように指定されます。

片側検定のp値

King(1953年)の結果を使用して、下付き文字(ij)のペアについて、観測される両側統計値rのp値は次のように指定されます。

さらに、Kingは上記の近似がと同等になるとも述べています。

表記

用語説明
rijDixonの検定統計量(i = 1, 2、j = 0, 1, 2)
yiサンプルに含まれるi番目に小さい値
nサンプルに含まれる観測値数

参考文献

W.J. Dixon (1951). "Ratios Involving Extreme Values," Annals of Mathematical Statistics, 22(1), 68-78.

E.P. King (1953). "On Some Procedures for the Rejection of Suspected Data," Journal of the American Statistical Association, Vol. 48, No. 263, pages 531-533.

G.C. McBane (2006). "Programs to Compute Distribution Functions and Critical Values for Extreme Value Ratios for Outlier Detection," Journal of Statistical Software, Vol. 16, No. 3, pages 1-9.

Grubbsの検定統計量のp値

片側検定の計算式

片側検定のp値は次のようになります。

両側検定の計算式

両側検定のp値は次のようになります。

p値は正確か近似か

次の条件を満たす場合、p値は正確です。

満たさない場合、計算されるp値は正確なp値の上限を示します。ただし、上限は正確なp値の非常に優れた近似です。

表記

用語説明
GGrubbsの検定統計量
nサンプルに含まれる観測値数
T自由度がn – 2のt分布として分布するランダム変数