异常值是异常大或异常小的观测值。异常值可能会对统计结果(如均值)产生不成比例的效应,从而导致引起误解的解释。例如,一个数据集包括值 1、2、3 和 34。均值 10 高于大部分数据(1、2、3),它会大大受到极端数据点 34 的影响。在这种情况下,从均值来看,数据值似乎比实际值大。然而,您应当调查异常值,因为它们可能会提供有关数据或过程的有用信息。通常,最方便的方法是通过绘制数据图来标识异常值。
在箱线图上,Minitab 使用星号 (*) 标识异常值。这些异常值是箱边上至少为四分位间距 (Q3 – Q1) 1.5 倍的观测值。
在散点图上,远离其他点的点有可能是异常值。
在某些情况下,应当检查多种类型的图形,因为显示在一个图形上的异常值在另一个图形上可能不明显。箱线图和直方图使用相同的数据。异常值在箱线图中明显,但在直方图上不明显。
原因 | 可能的措施 |
---|---|
数据输入错误 | 更正错误并重新分析数据。 |
可能的问题 | 调查过程,以便确定出现异常值的原因。 |
缺少因子 | 确定是否无法使用会影响过程的因子。 |
随机几率 | 调查过程和异常值,以确定异常值是否会偶然出现;执行包含及不包含异常值的分析以了解它对结果的影响。 |