最佳子集回归的方法和公式

计算例程

在最佳子集回归中,Minitab 会使用称为 Hamiltonian Walk 的过程,该过程是用于计算预测变量所有可能的子集的方法,每个步骤一个子集。在 2**m - 1 个步骤中,Minitab 会计算 2**m - 1 个子集。Minitab 会在每个步骤中评估另一个子集回归。

只需添加或删除一个变量,即可使 Hamiltonian Walk 中的每个子集不同于先前的子集。扫描算子会在 Hamiltonian Walk 的每个步骤将变量“扫描”到回归中或从回归中“扫描”出变量,并计算每个子集的 R2

回归方程

对于具有多个预测变量的模型,方程为:

y = β0 + β1x1 + … + βkxk + ε

拟合方程为:

在只包含一个预测变量的简单线性回归中,模型为;

y=ß0+ ß1x1+ε

使用回归估计 b0 代替 ß0b1 代替 ß1,拟合方程为:

表示法

说明
y响应
xkk 项。每一项都可以是单个预测变量、多项式项或者交互作用项。
ßkk 个总体回归系数
ε服从平均值为 0 的正态分布的误差项
bk对第 k 个总体回归系数的估计
拟合响应

R-sq

R2 也称为确定系数。

公式

表示法

说明
yi i 个观测响应值
平均响应
i 个拟合响应

R-sq(调整)

表示法

说明
MS均方
SS平方和
DF自由度

PRESS

用于评估模型的预测能力,计算公式为:

表示法

说明
n观测值个数
ei第 i 个残差
hi

第 i 个对角线元素为

X (X' X)-1X'

R-sq(预测)

当 R2(预测)的计算可以产生负值时,Minitab 会针对这些情况显示零。

表示法

说明
yi i 个观测响应值
平均响应
n 观测值个数
ei i 个残差
hi X(X'X)–1X' 的第 i 个对角线元素
X 设计矩阵

Mallows Cp

表示法

说明
SSEp考虑采用的模型的平方和误差
MSEm使用所有候选项的模型的均方误
n观测值个数
p模型中的项数,包括常量

S

表示法

说明
MSE均方误

对数似然

对于未加权的分析,Minitab 使用以下方程:
对于具有观测值权重的分析,Minitab 使用以下方程:

权重为 0 的观测值不在分析中。

表示法

说明
n观测值个数
R模型的误差平方和
wii 个观测值的权重

AICc(Akaike 更正的信息标准)

在满足以下条件时不计算 AICc:.

表示法

说明
n观测值个数
p模型中系数的个数,包括常量系数

BIC(Bayesian 信息标准)

表示法

说明
p模型中系数的个数,包括常量系数
n观测值个数

条件数

表示法

说明
C条件数
λ最大值来自模型中项的相关矩阵的最大特征值,不包括截距
λ最小值来自模型中项的相关矩阵的最小特征值,不包括截距