什么是异常值?

异常值是异常大或异常小的观测值。异常值可能会对统计结果(如均值)产生不成比例的效应,从而导致引起误解的解释。例如,一个数据集包括值 1、2、3 和 34。均值 10 高于大部分数据(1、2、3),它会大大受到极端数据点 34 的影响。在这种情况下,从均值来看,数据值似乎比实际值大。然而,您应当调查异常值,因为它们可能会提供有关数据或过程的有用信息。通常,最方便的方法是通过绘制数据图来标识异常值。

使用图形标识异常值

在箱线图上,Minitab 使用星号 (*) 标识异常值。这些异常值是箱边上至少为四分位间距 (Q3 – Q1) 1.5 倍的观测值。

此箱线图显示两个异常值。

在散点图上,远离其他点的点有可能是异常值。

此散点图显示一个可能的异常值。

在某些情况下,应当检查多种类型的图形,因为显示在一个图形上的异常值在另一个图形上可能不明显。箱线图和直方图使用相同的数据。异常值在箱线图中明显,但在直方图上不明显。

出现异常值的典型原因

出现异常值的典型原因包括以下几点:
原因 可能的措施
数据输入错误 更正错误并重新分析数据。
可能的问题 调查过程,以便确定出现异常值的原因。
缺少因子 确定是否无法使用会影响过程的因子。
随机几率 调查过程和异常值,以确定异常值是否会偶然出现;执行包含及不包含异常值的分析以了解它对结果的影响。