异常值检验 的方法和公式

请选择您所选的方法或公式。

Dixon 检验统计量

Dixon 检验确定样本中的最极端值是否为异常值。Dixon 检验包括选择能够克服样本中其他极端值所产生的潜在掩蔽效应的检验统计量。Dixon 检验统计量用 rij 表示,其中下标 ij 的含义如下:
  • i 表示数据中与可疑异常值在同一侧(下或上)的极端值个数。i = 1 或 2。
  • j 表示数据另一侧上的极端值个数。j = 0、1 或 2。

例如,如果可疑异常值是样本中的最小数据,但是样本中还包括两个异常大的值,则 r12 作为检验统计量比较合适。当样本中仅包括一个极端值时,r10(又称为 Dixon Q)作为检验统计量比较合适。

在 Rorabacher (1991) 中,将 Dixon 检验统计量的临界值绘成了表格。

单侧检验统计量

单侧检验公式取决于要检验最小值 yi 还是最大值 yn。要检验 yi 是否为异常值,请使用下面的公式:
要检验 yn 是否为异常值,请使用下面的公式:

双侧检验统计量

我们按照 King (1953) 定义与 r10 相关的双侧检验统计量那样定义双侧检验统计量。双侧检验统计量的计算公式如下:

表示法

说明
rijDixon 检验统计量(i = 1、2;j = 0、1、2)
yi样本中的第 i 个最小值
n样本中的观测值个数

参考书

  • D.B. Rorabacher (1991)。“Statistical Treatment for Rejection of Deviant Values: Critical Values of Dixon Q Parameter and Related Subrange Ratios at the 95 percent Confidence Level”(否定偏差值的统计处理:Dixon Q 参数和相关子范围比值在 95% 置信水平下的临界值),Analytic Chemistry(分析化学),第 83 卷第 2 期,第 139 到 146 页。
  • E.P. King (1953)。“On Some Procedures for the Rejection of Suspected Data”(针对一些否定可疑数据的过程),Journal of the American Statistical Association(美国统计协会杂志),第 48 卷第 263 期,第 531 到 533 页。

Grubbs 检验统计量

单侧统计量的公式

如果要检验最小的数据值是否为异常值,则按如下公式计算检验统计量 G
如果要检验最大的数据值是否为异常值,则按如下公式计算 G

双侧统计量的公式

对于双侧假设,G 的计算公式如下:

表示法

说明
样本均值
yi样本中的第 i 个最小值
s样本的标准差
n样本中的观测值个数

Dixon 检验统计量的 p 值

假定数据呈正态分布,无论要检验最小值还是最大值,Dixon 统计量都具有相同的分布。因此,在不损失一般性的情况下,我们可以侧重于用来在数据的高端中检测异常值的统计量,即:

检验统计量的累积分布函数

根据 Dixon (1951) 和 McBane (2006),检验统计量 rij 的分布的概率密度函数可以编写为:
其中 C 是归一化因子,其指定方式如下:
Jacobian J(x,v,r) 的指定方式如下:
使用变换,其中 t = (1 + r2) v2 / 2,u2 = 3x2 / 2,密度函数可以改写为:

Minitab 使用 30 点 Gauss-Laguerre 求积计算内部积分。Minitab 使用 30 点 Gauss-Hermite 求积计算外部积分。

检验统计量系列的累积分布函数的指定方式如下:

与 McBane (2006) 相似,Minitab 使用 16 点 Gauss-Legendre 求积方法计算 Fij(r)。

单侧检验的 p 值

对于任意下标对 (i, j),观测到的单侧统计量 r 的 p 值的指定方式如下:

单侧检验的 p 值

如果使用 King (1953) 结果,对于任意下标对 (i, j),观测到的双侧统计量 r 的 p 值的指定方式如下:

另外,King 观测到上述近似变成包含如下各项的等式:

表示法

说明
rijDixon 检验统计量,其中 i = 1、2;j = 0、1、2
yi样本中的第 i 个最小值
n样本中的观测值个数

参考书

W.J. Dixon (1951)。“Ratios Involving Extreme Values”(涉及极端值的比值),Annals of Mathematical Statistics(数理统计年刊),22(1),第 68 到 78 页。

E.P. KingKing (1953)。“On Some Procedures for the Rejection of Suspected Data”(针对一些否定可疑数据的过程),Journal of the American Statistical Association(美国统计协会杂志),第 48 卷第 263 期,第 531 到 533 页。

G.C. McBane (2006)。“Programs to Compute Distribution Functions and Critical Values for Extreme Value Ratios for Outlier Detection”(用来为异常值检测计算极端值比值的分布函数和临界值的程序),Journal of Statistical Software(统计软件杂志),第 16 卷第 3 期,第 1 到 9 页。

Grubbs 检验统计量的 p 值

单侧检验的公式

单侧检验的 p 值为:

双侧检验的公式

双侧检验的 p 值为:

精确 p 值与近似 p 值

如果以下条件成立,则说明 p 值精确。

如果不成立,则计算得出的 p 值表示精确 p 值的上限。但是,上限是对精确 p 值的绝佳近似。

表示法

说明
GGrubbs 检验统计量
n样本中的观测值个数
T服从自由度为 n – 2 的 t 分布的随机变量