使用逐步回归和最佳子集回归

关于本主题

什么是逐步回归？
什么是最佳子集回归？

什么是逐步回归？

逐步回归是模型构建的解释阶段中所使用的一种自动化工具，用以确认预测变量的有用子集。过程在每个步骤中系统地添加最显著的变量，或删除最不显著的变量。

例如，房地产咨询公司收集了过去一年中有关住房销售的数据，目标是预测未来的销售价格。预测变量在 100 个以上时，找出模型可能是很费时的任务。Minitab 的逐步回归功能自动标识要考虑的一系列模型。AICc、BIC、检验 R²、R²、调整后的 R²、预测的 R²、S 和 Mallows 的 Cp 等统计量可帮助您比较模型。Minitab 对于根据您使用的逐步过程所得到的最佳模型显示完整结果。

Minitab 中的以下分析可以自动执行逐步选择，以便您可以在一组输出中评估许多潜在模型的模型汇总统计量。

预测分析模块 > 线性回归
统计 > 回归 > 回归 > 拟合回归模型
预测分析模块 > 二值 Logistic 回归
统计 > 回归 > 二元 Logistic 回归 > 拟合二元 Logistic 模型
统计 > 回归 > Poisson 回归 > 拟合 Poisson 模型
统计 > 方差分析 > 一般线性模型 > 拟合一般线性模型
统计 > DOE > 筛选 > 分析筛选设计
统计 > DOE > 筛选 > 分析二元响应
统计 > DOE > 因子 > 分析因子设计
统计 > DOE > 因子 > 分析二元响应
统计 > DOE > 响应曲面 > 分析响应曲面设计
统计 > DOE > 响应曲面 > 分析二元响应

逐步回归问题

使用变量选择过程（如最佳子集和逐步回归）时需要谨慎。一个问题是，这些过程不能考虑分析人员可能拥有的有关数据的特殊知识。该过程无法考虑任何预测变量的实际重要性。

与过程无法考虑特殊知识相关的问题是，当两个预测变量高度相关时，过程只能选择两个预测变量中的一个，即使其中任何一个预测变量都很重要。例如，该过程可以删除成本低廉且易于测量的预测变量，以支持难以测量且成本高昂的相关预测变量。分析师必须利用他们对数据的了解来判断程序无法考虑的标准。

逐步过程的另一个问题是不同的模型可以优化不同的标准。例如，具有最高调整 R² 值的模型不一定是具有最高检验 R² 值的模型。分析师必须考虑不同的标准来选择最终模型。

而且，当您将模型与数据拟合时，拟合优度来自两个基本来源：

数据的基础结构（将适用于以相同方式收集的其他数据集的结构）。
您分析的数据集的特性。

为了确保模型不只是拟合一个特定的数据集，应当针对新的数据集验证由选择过程找到的模型。您还可以获取原始的数据集，随机将其分成两部分，对一部分使用最佳子集来选择模型，然后对第二部分验证拟合。此过程有助于确保所选模型将适用于其他数据集。转到使用自动验证的逐步过程部分，了解可以自动对数据进行分区并计算验证统计数据的命令。

逐步过程

Minitab 中包括自动逐步过程的所有分析都包括以下过程。通过以下方法，您可以根据用于构建模型的数据的模型汇总统计数据快速评估大量不同的模型。

标准逐步回归为每个步骤添加或删除预测变量。当不在模型中的所有变量的 p 值都大于指定的入选用 Alpha 值且模型中所有变量的 p 值都小于或等于指定的删除用 Alpha 值时，Minitab 停止。
向前信息标准过程在每个步骤中向模型添加具有最低 p 值的项。如果分析设置允许考虑非层次结构项，但要求每个模型都使用层次结构，则在步骤 1 中可以向模型中输入其他项。Minitab 为每个步骤计算信息标准。在大多数情况下，该过程将继续，直到出现以下情况之一：
- 该过程在连续 8 个步骤中都未找到标准的新最小值。
- 该过程拟合全模型。
- 该过程拟合误差自由度为 1 的的模型。
如果您为该过程指定的设置要求每个步骤都使用层次结构模型，并且一次只允许输入一项，则该过程将持续到其拟合全模型或者拟合误差自由度为 1 的模型。Minitab 对于针对选定的信息标准（AIC 或 BIC）具有最小值的模型显示分析结果。
正向选择从空模型或包含您指定项的模型开始。然后，Minitab 会为每个步骤添加最显著的项。当不在模型中的所有变量的 p 值都大于指定的入选用 Alpha 值时，Minitab 停止。
向后消元法开始时模型中具有所有预测变量，Minitab 在每个步骤中删除最不显著的变量。当模型中所有变量的 p 值都小于或等于指定的删除用 Alpha 值时，Minitab 停止。

具有自动验证的逐步回归过程

对于以下命令，Minitab 中的分析可以包括自动验证技术以及逐步过程。自动验证为分析人员节省了时间，因为他们将在逐步过程后自行进行模型验证。在逐步过程中，以下命令可以将数据划分为训练数据集和测试数据集：

Minitab 可以对检验数据集自动执行的逐步过程称为使用检验数据集进行验证的正向选择。在此过程中，初始模型为空或包含您专门选择的模型项。然后，Minitab 在每个步骤中添加具有最小 p 值的下一个潜在项。Minitab 将模型在每个步骤中的检验 R² 计算为检验数据集上模型的 R² 值。Minitab 提供的模型结果适用于检验 R² 值最大值的模型。

对于拟合回归模型，您可以选择第二种验证技术来执行逐步选择，称为 k 折交叉验证的正向选择。在 k 折交叉验证中，Minitab 将数据集划分为 k 个子集。这些子集称为折叠。大多数情况下，验证使用 10 个折叠，但也可以使用其他数字。折叠具有尽可能接近相等的观测值数。Minitab 执行正向选择 k 次。对于每个前向选择，k-1 折叠是训练数据集，最后一个折叠是测试数据集。与其他正向选择过程一样，初始模型为空或包含您专门选择的模型项。然后，Minitab 在每个步骤中添加具有最小 p 值的下一个潜在项。对于每个步骤，Minitab 通过组合来自不同逐步选择过程的信息来计算 k 折叠逐步 R² 值。

层次结构

分层模型是这样一种模型：对于模型中的每一项，模型中还必须包括该项中所包含的所有低次项。例如，假设一个模型具有以下四个因子：A、B、C 和 D。如果模型中有项 A * B * C，则项 A、B、C、A*B、A*C 和 B*C 也必须位于模型中，但任何带有 D 的项都不必位于模型中。

在某个步骤中进入或离开模型的项取决于层次结构的规范。默认情况下，Minitab Statistical Software 在每个步骤中都需要一个分层模型，所有项都需要分层结构，并且每个步骤只允许一个项进入模型。这些设置限制了 Minitab 在每个步骤中考虑的项。例如，除非交互作用中的两个低阶项都已在模型中，否则双向交互作用无法进入模型。您可以通过在选择逐步方法时单击层次结构来调整这些设置。

什么是最佳子集回归？

最佳子集回归是一种自动化工具，用于模型构建的探索阶段，用于识别有用的预测变量子集。该过程显示您为每个大小请求的模型数的模型汇总结果：具有一个预测变量的模型、具有两个预测变量的模型，依此类推。显示的模型在该大小的可能模型中具有最高的 R² 值。要在 Minitab 中使用最佳子集回归，请选择统计 > 回归 > 回归 > 最佳子集。

作为一种自动选择过程，最佳子集回归与逐步回归有许多共同的问题。该过程不能使用分析人员所拥有的专业知识，也不能保证不同的标准可以识别相同的模型。预测变量之间的相关性会使最佳模型的识别更加困难。使用新数据验证模型可以提高您对模型性能的信心。

最佳子集回归和逐步回归的比较

最佳子集是 Minitab Statistical Software 中的分析。逐步回归是多种分析中的一个选项。这两种自动模型选择技术都提供了有关多个不同模型的拟合的信息。从不同的模型中，您可以确定任何值得进一步探索的模型。

Minitab 中技术之间的差异可以帮助您决定是使用一种技术而不是另一种技术，还是同时使用两种技术。以下是一些需要考虑的一般要点：

特征	最佳子集回归	逐步回归
考虑的模型	预测变量的所有可能模型。	由项的统计显著性选择的模型序列。
要考虑的预测变量数	最多 31 个免费预测变量，以及每个模型中所需的任何预测变量。	没有设置限制。
预测变量的类型	工作表中的数值列。	文本或数字列加上交互项和其他高阶项。
响应变量的类型	一个数值列。	Minitab 中的不同分析可以分析不同类型的响应变量。对于逐步回归，您可以选择连续响应变量、二元响应变量或 Poisson 响应变量的分析。
结果	结果包括探索数据拟合的模型汇总统计量。要查看完整的回归结果（如残差图），请在分析中浏览您选择的模型，例如拟合回归模型。	分析将根据您选择的标准显示最佳模型的完整回归结果。您还可以选择查看过程中每个步骤的模型摘要统计信息。