第 i 个观测值的杠杆率是第 i 个对角线元素 H 的 hi。如果 hi 较大,则第 i 个观测值的预测变量 (X1i, X2i, ..., Xpi) 异常。即,预测变量值远离均值向量 (使用 Mahalanobis 距离)。
杠杆率值位于 0 和 1 之间。Minitab 会在异常观测值表中用 X 标识杠杆率大于 3p/n 或 0.99(以较小者为准)的观测值。通常,您应检查具有较大杠杆率的值。
项 | 说明 |
---|---|
X | 设计矩阵 |
hi | 帽子矩阵的第 i 个对角线元素 |
p | 模型中的项数,包括常量 |
n | 观测值个数 |
整体度量 D 是所有估计回归系数对某个观测值的共同影响。Minitab 使用杠杆率值和标准化残差来计算 D,并在分析某个观测值是否异常时会同时考虑 x 和 y 值。具有较大 D 值的观测值可能为异常值。
Cook 距离是指使用和未使用第 i 个观测值计算的系数之间的距离。在每次忽略观测值但不拟合新回归方程的情况下,Minitab 可计算 Cook 距离。此计算为:
项 | 说明 |
---|---|
ei | 第 i 个残差 |
hi | 以下公式的第 i 个对角线元素: |
p | 模型参数的数量,包括常量 |
s 2 | 均方误 |
b | 系数向量 |
b(i) | 删除第 i 个观测值之后计算的系数向量 |
X | 设计矩阵 |
将杠杆率和 t 化残差(删后 t 残差)值合并为一个表示观测值异常程度的整体度量。DFITS 度量每个观测值对回归和方差分析模型中的拟合值的影响。具有较大 DFITS 值的观测值可能为异常值。
DFITS 粗略表示从数据集中删除每个观测值并重新拟合模型时,拟合值改变的标准差的数量。在每次忽略观测值但不拟合新回归方程的情况下,Minitab 计算 DFITS。
项 | 说明 |
---|---|
ei | 第 i 个残差 |
hi | 以下公式的第 i 个对角线元素: |
X | 设计矩阵 |
第 i 个拟合响应 | |
不使用第 i 个观测值计算的拟合值 | |
MSE (i) | 不使用第 i 个观测值计算的均方误 |
n | 观测值个数 |
p | 模型参数个数 |
可以通过针对其余预测变量回归每个预测变量并对 R2 值求反来获得 VIF。
对于预测变量 xj,VIF 为:
项 | 说明 |
---|---|
R2( xj) | 将 xj 的判定系数作为响应变量,将模型中的其他项作为预测变量 |