什么是异常观测值?

异常观测值(也常称为强影响点的观测值)是对回归或方差分析模型的影响不成比例的观测值。识别出异常观测值非常重要,因为它们可能会产生误导性结果。例如,一个异常观测值可能会导致显著的系数看上去并不显著。

异常观测值可以符合下列任一项,或同时符合两项:
  • 杠杆点,即 x 方向上的极端值
  • 异常值(异常大的残差),即 y 方向上相对于拟合回归线的极端值

确定异常观测值

要识别异常观测值,请检查包含杠杆率值、残差、Cook D 和 DFITS 的诊断度量。如果这些统计量的值异常大,则说明观测值可能异常。Minitab 在异常观测值的拟合和诊断表中标记具有杠杆率极端值或残差极端值(异常值)的观测值,如下所示:
  • X 表示杠杆率值很大的点。Minitab 标记杠杆率值大于 3 * 模型项数/观测值数,或杠杆率值大于 0.99,以较小的为准。
  • R 表示标准化残差极值。Minitab 标记绝对值大于 2 的标准化残差。

Minitab 标记的观测值未能很好地遵循建议的回归方程。但是,预计您将得到一些异常观测值。例如,基于较大残差的标准,预计大约 5% 的观测值将标记为具有较大的残差。

异常观测值表的示例

异常观测值的拟合和诊断 标准化 观测值 热通量 拟合值 残差 残差 1 271.80 274.74 -2.94 -0.40 X 22 254.50 230.91 23.59 2.74 R R 残差大 X 异常 X

在前面的输出中,观测值 1 以 X 表示,并将其识别为杠杆率点。观测值 22 以 R 表示,为异常值。

确定异常观测值对模型的影响

要确定一个异常观测值的影响程度如何,请分别采用或不采用观测值来拟合模型并比较系数、p 值、R2 和其他模型参数。如果排除异常观测值后模型有显著变化,首先确定该观测值是否是数据输入或测量错误。如果不是,则进一步检查模型以确定是否忽略了重要项(例如,交互作用项)或变量,或者指定了错误的模型。您可能需要收集更多数据才能找到最终答案。