杠杆率 (Hi) 用于度量某个观测值的 x 值与数据集中所有观测值的 x 值的平均值之间的距离。用于标识具有异常预测变量值(与其余数据相比)的观测值。
杠杆率较大的观测值对拟合值和回归模型有较大效应。例如,杠杆率较大的观测值可能使显著系数看似不显著。但是,并非所有杠杆率点都是异常观测值。
使用大于 3p/n 的杠杆率值来研究观测值,其中 p 为模型项数(包括常量),n 为观测值数。Minitab 会在异常观测值表中用 X 标识杠杆率值大于 3p/n 或 0.99(以较小者为准)的观测值。
从几何角度看,Cook 距离度量的是使用第 i 个观测值计算的拟合值与不使用第 i 个观测值计算的似合值之间的距离。用于标识具有异常预测变量值(与其余数据相比)的观测值和模型无法很好地拟合的观测值。Cook 距离较大的观测值对拟合值和回归模型有较大效应。
研究 D 大于 F(0.5, p, n-p) 的观测值,后者是 F 分布的中位数,其中 p 是模型项数(包括常量),n 是观测值数。检验距离值的另一种方法是使用线条图比较各个距离值。与其他观测值相比,距离值大的观测值的影响较大。
DFITS 大致表示从数据集中删除每个观测值并重新拟合模型时,拟合值改变的标准差的数量。用于标识具有异常预测变量值(与其余数据相比)的观测值和模型无法很好地拟合的观测值。DFITS 值较大的观测值对拟合值和回归模型有较大效应。
使用大于 2*sqrt(p/n) 的 DFITS 值来研究观测值,其中 p 为模型项数(包括常量),n 为观测值量。检验 DFITS 值的另一种方法是使用时间序列图或线条图比较各个 DFITS 值。与其他观测值相比,DFITS 值大的观测值的影响较大。
要确定异常观测值的效应,您可以拟合包含和不包含该观测值的模型,并比较系数、p 值、R2 和其他模型信息。如果在排除异常的观测值后模型有显著变化,首先确定该观测值是数据输入还是测量错误。如果都不是,则确定是忽略了重要项(例如,交互作用项)或变量,还是指定了错误的模型。您可能需要收集更多数据才能找到最终答案。