最佳子集回归的方法和公式

计算例程

在最佳子集回归中,Minitab 会使用称为 Hamiltonian Walk 的过程,该过程是用于计算预测变量所有可能的子集的方法,每个步骤一个子集。在 2**m - 1 个步骤中,Minitab 会计算 2**m - 1 个子集。Minitab 会在每个步骤中评估另一个子集回归。

只需添加或删除一个变量,即可使 Hamiltonian Walk 中的每个子集不同于先前的子集。扫描算子会在 Hamiltonian Walk 的每个步骤将变量“扫描”到回归中或从回归中“扫描”出变量,并计算每个子集的 R2

回归方程

对于具有多个预测变量的模型,方程为:

y = β0 + β1x1 + ... + βkxk + ε

拟合方程为:

在只包含一个预测变量的简单线性回归中,模型为;

y=ß0+ ß1x1+ε

利用回归估计 β0ß0b1ß1的拟合方程为:

带有范畴变量的方程

当你在回归模型中包含类别变量时,有两种选项可以显示回归方程:
  • 每组类别预测水平的独立方程
  • 单个方程
这两个选项是等价的。例如,假设数据具有以下变量:
C1
响应变量
C2
连续预测器
C3
一个类别预测变量,水平为 红色
这些独立方程如下:
  • 蓝:C1 = 0.184 + 0.1964*C2
  • 红:C1 = 0.011 + 0.1964*C²

单个方程使用指示变量表示类别变量。

C1 = 0.184 + 0.1964*C2 + 0.0*C3_蓝 - 0.173*C3_红

在单一方程中,如果观测值是蓝色, C3_蓝 等于1,否则为0。如果观测值是红色,C3_红 等于1,否则为0。对每个组,代入指示变量以验证单个方程是否与两个独立方程相同。
  • 蓝色观测(C3_蓝 = 1,C3_红 = 0):C1 = 0.184 + 0.1964*C2 + 0.0*1- 0.173*0 = 0.184 + 0.1964*C2
  • 红色观测(C3_蓝 = 0, C3_红 = 1:C1 = 0.084 + 0.1964*C2 + 0.0*0 - 0.173*1 = 0.011 + 0.1964*C2

表示法

说明
y响应
xk第K个任 期。每个项可以是单个预测变量、多项式项或交互作用项。
ßk第k 群体回归系数
ε服从平均值为 0 的正态分布的误差项
BK第K个体 回归系数的估计
拟合响应

R-sq

R2 也称为确定系数。

公式

表示法

说明
yi i 个观测响应值
平均响应
i 个拟合响应

R-sq(调整)

表示法

说明
MS均方
SS平方和
DF自由度

PRESS

用于评估模型的预测能力,计算公式为:

表示法

说明
n观测值个数
ei第 i 个残差
hi

第 i 个对角线元素为

X (X' X)-1X'

R-sq(预测)

当 R2(预测)的计算可以产生负值时,Minitab 会针对这些情况显示零。

表示法

说明
yi i 个观测响应值
平均响应
n 观测值个数
ei i 个残差
hi X(X'X)–1X' 的第 i 个对角线元素
X 设计矩阵

Mallows Cp

表示法

说明
SSEp考虑采用的模型的平方和误差
MSEm使用所有候选项的模型的均方误
n观测值个数
p模型中的项数,包括常量

S

表示法

说明
MSE均方误

对数似然

对于未加权的分析,Minitab 使用以下方程:
对于具有观测值权重的分析,Minitab 使用以下方程:

权重为 0 的观测值不在分析中。

表示法

说明
n观测值个数
R模型的误差平方和
wii 个观测值的权重

AICc(Akaike 更正的信息标准)

在满足以下条件时不计算 AICc:.

表示法

说明
n观测值个数
p模型中系数的个数,包括常量系数

BIC(Bayesian 信息标准)

表示法

说明
p模型中系数的个数,包括常量系数
n观测值个数

条件数

表示法

说明
C条件数
λ最大值来自模型中项的相关矩阵的最大特征值,不包括截距
λ最小值来自模型中项的相关矩阵的最小特征值,不包括截距