标识回归和方差分析中的异常值的方法

在模型拟合分析的情况下,异常值是大于平均响应值或预测变量值的观测值。Minitab 提供了几种标识异常值的方法,包括残差图和三种存储统计量:杠杆率、Cook 距离和 DFITS。标识异常值非常重要,因为它们会显著影响模型,从而有可能形成误导或导致不正确的结果。如果您已在数据中标识出异常值,应该检查测量值以了解它为什么异常,并做出相应的补救。
Hi(杠杆率)

杠杆率 (Hi) 用于度量某个观测值的 x 值与数据集中所有观测值的 x 值的平均值之间的距离。用于标识具有异常预测变量值(与其余数据相比)的观测值。

杠杆率较大的观测值对拟合值和回归模型有较大效应。例如,杠杆率较大的观测值可能使显著系数看似不显著。但是,并非所有杠杆率点都是异常观测值。

使用大于 3p/n 的杠杆率值来研究观测值,其中 p 为模型项数(包括常量),n 为观测值数。Minitab 会在异常观测值表中用 X 标识杠杆率值大于 3p/n 或 0.99(以较小者为准)的观测值。

Cook 距离 (D)

从几何角度看,Cook 距离度量的是使用第 i 个观测值计算的拟合值与不使用第 i 个观测值计算的似合值之间的距离。用于标识具有异常预测变量值(与其余数据相比)的观测值和模型无法很好地拟合的观测值。Cook 距离较大的观测值对拟合值和回归模型有较大效应。

研究 D 大于 F(0.5, p, n-p) 的观测值,后者是 F 分布的中位数,其中 p 是模型项数(包括常量),n 是观测值数。检验距离值的另一种方法是使用线条图比较各个距离值。与其他观测值相比,距离值大的观测值的影响较大。

DFITS

DFITS 大致表示从数据集中删除每个观测值并重新拟合模型时,拟合值改变的标准差的数量。用于标识具有异常预测变量值(与其余数据相比)的观测值和模型无法很好地拟合的观测值。DFITS 值较大的观测值对拟合值和回归模型有较大效应。

使用大于 2*sqrt(p/n) 的 DFITS 值来研究观测值,其中 p 为模型项数(包括常量),n 为观测值量。检验 DFITS 值的另一种方法是使用时间序列图或线条图比较各个 DFITS 值。与其他观测值相比,DFITS 值大的观测值的影响较大。

要确定异常观测值的效应,您可以拟合包含和不包含该观测值的模型,并比较系数、p 值、R2 和其他模型信息。如果在排除异常的观测值后模型有显著变化,首先确定该观测值是数据输入还是测量错误。如果都不是,则确定是忽略了重要项(例如,交互作用项)或变量,还是指定了错误的模型。您可能需要收集更多数据才能找到最终答案。