最佳子集回归的方法和公式

关于本主题

计算例程
回归方程
R-sq
R-sq（调整）
PRESS
R-sq（预测）
Mallows Cp
S
对数似然
AICc（Akaike 更正的信息标准）
BIC（Bayesian 信息标准）
条件数

计算例程

在最佳子集回归中，Minitab 会使用称为 Hamiltonian Walk 的过程，该过程是用于计算预测变量所有可能的子集的方法，每个步骤一个子集。在 2**m - 1 个步骤中，Minitab 会计算 2**m - 1 个子集。Minitab 会在每个步骤中评估另一个子集回归。

只需添加或删除一个变量，即可使 Hamiltonian Walk 中的每个子集不同于先前的子集。扫描算子会在 Hamiltonian Walk 的每个步骤将变量“扫描”到回归中或从回归中“扫描”出变量，并计算每个子集的 R²。

回归方程

对于具有多个预测变量的模型，方程为：

y = β₀ + β₁x₁ + … + β_kx_k + ε

拟合方程为：

在只包含一个预测变量的简单线性回归中，模型为；

y=ß₀+ ß₁x₁+ε

使用回归估计 b₀ 代替 ß₀，b₁ 代替 ß₁，拟合方程为：

表示法

项	说明
y	响应
x_k	第 k 项。每一项都可以是单个预测变量、多项式项或者交互作用项。
ß_k	第 k 个总体回归系数
ε	服从平均值为 0 的正态分布的误差项
b_k	对第 k 个总体回归系数的估计
	拟合响应

R-sq

R² 也称为确定系数。

公式

表示法

项	说明
y_i	第 i 个观测响应值
	平均响应
	第 i 个拟合响应

R-sq（调整）

表示法

项	说明
MS	均方
SS	平方和
DF	自由度

PRESS

用于评估模型的预测能力，计算公式为：

表示法

项

说明

观测值个数

e_i

第 i 个残差

h_i

第 i 个对角线元素为

X (X' X)^-1X'

R-sq（预测）

当 R²（预测）的计算可以产生负值时，Minitab 会针对这些情况显示零。

表示法

项	说明
y_i	第 i 个观测响应值
	平均响应
n	观测值个数
e_i	第 i 个残差
h_i	X(X'X)^–1X' 的第 i 个对角线元素
X	设计矩阵

Mallows Cp

表示法

项	说明
SSE_p	考虑采用的模型的平方和误差
MSE_m	使用所有候选项的模型的均方误
n	观测值个数
p	模型中的项数，包括常量

S

表示法

项	说明
MSE	均方误

对数似然

对于未加权的分析，Minitab 使用以下方程：

对于具有观测值权重的分析，Minitab 使用以下方程：

权重为 0 的观测值不在分析中。

表示法

项	说明
n	观测值个数
R	模型的误差平方和
w_i	第 i 个观测值的权重

AICc（Akaike 更正的信息标准）

在满足以下条件时不计算 AICc：.

表示法

项	说明
n	观测值个数
p	模型中系数的个数，包括常量系数

BIC（Bayesian 信息标准）

表示法

项	说明
p	模型中系数的个数，包括常量系数
n	观测值个数

条件数

表示法

项	说明
C	条件数
λ_最大值	来自模型中项的相关矩阵的最大特征值，不包括截距
λ_最小值	来自模型中项的相关矩阵的最小特征值，不包括截距