线性回归中的诊断测量 拟合回归模型方法和公式

请选择您所选的方法或公式。

杠杆率 (Hi)

杠杆率通过帽子矩阵 (H) 获得,该矩阵属于一种 n x n 投影矩阵:

i 个观测值的杠杆率是第 i 个对角线元素 Hhi。如果 hi 较大,则第 i 个观测值的预测变量 (X1i, X2i, ..., Xpi) 异常。即,预测变量值远离均值向量 (使用 Mahalanobis 距离)。

杠杆率值位于 0 和 1 之间。Minitab 会在异常观测值表中用 X 标识杠杆率大于 3p/n 或 0.99(以较小者为准)的观测值。通常,您应检查具有较大杠杆率的值。

表示法

说明
X设计矩阵
hi帽子矩阵的第 i 个对角线元素
p模型中的项数,包括常量
n观测值个数

杠杆率 (Hi) 并验证

公式

对于验证数据,每行的杠杆率都来自以下公式:

对于加权回归,公式包括权重:

表示法

说明
Xdesign matrix for the rows in the training data set or the folds that act as the training data set
xithe vector of predictors in the i(序号) validation row
wiweight for the i(序号) validation row

Cook 距离

整体度量 D 是所有估计回归系数对某个观测值的共同影响。Minitab 使用杠杆率值和标准化残差来计算 D,并在分析某个观测值是否异常时会同时考虑 x 和 y 值。具有较大 D 值的观测值可能为异常值。

公式

Cook 距离是指使用和未使用第 i 个观测值计算的系数之间的距离。在每次忽略观测值但不拟合新回归方程的情况下,Minitab 可计算 Cook 距离。此计算为:

表示法

说明
ei i 个残差
hi 以下公式的第 i 个对角线元素:
p 模型参数的数量,包括常量
s 2 均方误
b 系数向量
b(i) 删除第 i 个观测值之后计算的系数向量
X 设计矩阵

DFITS

将杠杆率和 t 化残差(删后 t 残差)值合并为一个表示观测值异常程度的整体度量。DFITS 度量每个观测值对回归和方差分析模型中的拟合值的影响。具有较大 DFITS 值的观测值可能为异常值。

DFITS 粗略表示从数据集中删除每个观测值并重新拟合模型时,拟合值改变的标准差的数量。在每次忽略观测值但不拟合新回归方程的情况下,Minitab 计算 DFITS。

公式

表示法

说明
ei i 个残差
hi 以下公式的第 i 个对角线元素:
X 设计矩阵
i 个拟合响应
不使用第 i 个观测值计算的拟合值
MSE (i) 不使用第 i 个观测值计算的均方误
n 观测值个数
p 模型参数个数

方差膨胀因子 (VIF)

可以通过针对其余预测变量回归每个预测变量并对 R2 值求反来获得 VIF。

公式

对于预测变量 xj,VIF 为:

表示法

说明
R2( xj)xj 的判定系数作为响应变量,将模型中的其他项作为预测变量

Durbin-Watson 统计量

通过确定两个相邻误差项的相关性是否为零来检验残差是否存在自相关。该检验以误差均由一阶自回归过程生成的假设为基础。Minitab 假设观测值遵循有意义的顺序(如时间顺序)。

首先,Minitab 将残差乘以权重的平方根。如果不使用权重,则权重的值为 1,并且加权残差与正态残差的值相同。
加权残差用于以下公式中:

表示法

说明
eii 个残差
ei -1上一个观测值的残差
n观测值个数