什么是逐步回归?

逐步回归是模型构建的解释阶段中所使用的一种自动化工具,用以确认预测变量的有用子集。过程在每个步骤中系统地添加最显著的变量,或删除最不显著的变量。

例如,房地产咨询公司收集了过去一年中有关住房销售的数据,目标是预测未来的销售价格。预测变量在 100 个以上时,找出模型可能是很费时的任务。Minitab 的逐步回归功能自动标识要考虑的一系列模型。AICc、BIC、R2、调整的 R2、预测的 R2、S 和 Mallows Cp 等统计量可帮助比较模型。Minitab 对于根据您使用的逐步过程所得到的最佳模型显示完整结果。

Minitab 中的以下分析可以自动执行逐步选择,以便您可以在一组输出中评估许多潜在模型的模型摘要统计信息。
  • 统计 > 回归 > 回归 > 拟合回归模型
  • 统计 > 回归 > 二元 Logistic 回归 > 拟合二元 Logistic 模型
  • 统计 > 回归 > Poisson 回归 > 拟合 Poisson 模型
  • 统计 > 方差分析 > 一般线性模型 > 拟合一般线性模型
  • 统计 > DOE > 筛选 > 分析筛选设计
  • 统计 > DOE > 筛选 > 分析二元响应
  • 统计 > DOE > 因子 > 分析因子设计
  • 统计 > DOE > 因子 > 分析二元响应
  • 统计 > DOE > 响应曲面 > 分析响应曲面设计
  • 统计 > DOE > 响应曲面 > 分析二元响应

逐步回归问题

使用变量选择过程(如最佳子集和逐步回归)时需要谨慎。自动过程无法考虑到分析人员对数据可能具有的特殊知识。该过程不能考虑任何预测变量的实际重要性。

与过程无法考虑特殊知识相关的问题是,当两个预测变量高度相关时,该过程只能选择两个预测变量中的一个,即使其中任一预测变量都很重要。例如,该过程可以删除价格低廉且易于测量的预测变量,而选择难以测量且成本高昂的相关预测变量。分析人员必须利用他们对数据的了解,对程序无法考虑的标准做出判断。

逐步过程的另一个问题是,不同的模型可以优化不同的标准。例如,具有最高调整 R2 值的模型不一定是具有最高测试 R2 值的模型。分析人员必须考虑选择最终模型的不同条件。

而且,当您将模型与数据拟合时,拟合优度来自两个基本来源:
  • 数据的基础结构(将适用于以相同方式收集的其他数据集的结构)
  • 分析的数据集的特殊性。

为了确保模型不只是拟合一个特定的数据集,应当针对新的数据集验证由选择过程找到的模型。您还可以获取原始的数据集,随机将其分成两部分,对一部分使用最佳子集来选择模型,然后对第二部分验证拟合。此过程有助于确保所选模型将适用于其他数据集。转到具有自动验证的逐步过程部分,了解可以自动分区数据并计算验证统计信息的命令。

逐步过程

在 Minitab 中包括自动分步过程的所有分析都包括以下过程。以下方法允许您快速评估大量不同模型,以计算用于构建模型的数据的模型摘要统计信息。

  • 标准逐步回归为每个步骤添加或删除预测变量。当不在模型中的所有变量的 p 值都大于指定的入选用 Alpha 值且模型中所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 停止。
  • 向前信息标准过程在每个步骤中向模型中添加具有最低 p 值的项。如果分析设置允许考虑非分层项,但要求每个模型具有分层,则其他项可以在 1 个步骤中输入模型。Minitab 计算每个步骤的信息标准。在大多数情况下,该过程将继续,直到出现以下情况之一:
    • 该过程在连续 8 个步骤中没有发现新的标准最小值。
    • 该过程拟合全模型。
    • 该过程拟合误差自由度为 1 的模型。
    如果为过程指定要求每个步骤具有分层模型且一次仅允许输入一个项的设置,则该过程将继续,直到它拟合全模型或拟合误差自由度为 1 的模型。Minitab 对于针对选定的信息标准(AIC 或 BIC)具有最小值的模型显示分析结果。
  • 正向选择从空模型或具有您指定的术语的模型开始。然后,Minitab 会为每个步骤添加最显著的项。当不在模型中的所有变量的 p 值都大于指定的入选用 Alpha 值时,Minitab 停止。
  • 向后消元法开始时模型中具有所有预测变量,Minitab 在每个步骤中删除最不显著的变量。当模型中所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 停止。

具有自动验证的逐步回归过程

对于以下命令,Minitab 中的分析可以包括自动验证技术以及逐步过程。自动验证为分析人员节省时间,在逐步过程后,分析人员会自行执行模型验证。在逐步过程中,以下命令可以将数据划分为训练数据集和测试数据集:

Minitab 可以自动使用测试数据集执行的逐步过程称为正向选择,使用测试数据集进行验证。在此过程中,初始模型为空或包含您专门选择的模型术语。然后,Minitab 在每个步骤中添加具有最小 p 值的下一个潜在术语。Minitab 在每个步骤中计算模型的测试 R2 作为测试数据集上的模型的 R2 值。Minitab 显示的模型结果适用于具有测试 R2 值最大值的模型。

对于拟合回归模型 ,可以选择第二种验证技术,使用称为 k 折交叉验证的逐级选择执行。在 k 折交叉验证中,Minitab 将数据集划分为 k 个子集。子集称为折叠。通常,验证使用 10 折,但其他数字是可能的。折数的观测值数量尽可能接近相等。Minitab 执行正向选择 k 次。对于每个正向选择,k+1 折叠是训练数据集,最后一个折叠是测试数据集。与其他正向选择过程一样,初始模型为空或包含您专门选择的模型术语。然后,Minitab 在每个步骤中添加具有最小 p 值的下一个潜在术语。对于每个步骤,Minitab 通过组合来自不同的逐级选择过程的信息来计算 k 折级 R2 值。

层次结构

分层模型是这样一种模型:对于模型中的每一项,模型中还必须包括该项中所包含的所有低次项。例如,假设一个模型具有以下四个因子:A、B、C 和 D。如果项 A * B * C 在模型中,则项 A B C A * B A * C B * C 也必须在该模型中,但带有 D 的任何项则不必在该模型中。

在步骤中输入或离开模型的术语取决于层次结构的规范。默认情况下,Minitab 统计软件要求每个步骤都有一个分层模型,要求所有术语的层次结构,并且只允许一个术语在每个步骤中输入模型。这些设置限制 Minitab 在每个步骤中考虑的术语。例如,双向交互无法输入模型,除非交互中的两个低阶术语已在模型中。您可以通过单击 层次结构 当您选择一个循序渐进的方法。

执行最佳子集回归

逐步回归是模型构建的解释阶段中所使用的一种自动化工具,用以确认预测变量的有用子集。该过程显示您为每个尺寸请求的模型数的模型摘要结果:具有一个预测变量的模型、具有两个预测变量的模型等。显示的模型在可能的大小模型中具有 R2 的最高值。要在 Minitab 中使用最佳子集回归,请选择 统计 > 回归 > 回归 > 最佳子集

作为一个自动选择过程,最佳子集回归与逐步回归存在许多问题。该过程不能使用分析人员具备的专业知识,也不能保证不同的标准标识相同的模型。预测变量之间的相关性会使识别最佳模型变得更加困难。使用新数据验证模型会增加对模型性能的信心。

最佳子集回归和逐步回归的比较

最佳子集是在 Minitab 统计软件中进行分析。逐步回归是多个分析中的一个选项。这两种自动模型选择技术都提供有关几种不同模型拟合的信息。从不同的模型,你可以确定任何模型值得进一步探索。

Minitab 中的技术之间的差异可以帮助您决定是使用一种技术而不是另一种技术,还是同时使用这两种技术。以下是需要考虑的一些一般性要点:
特征 最佳子集回归 逐步回归
考虑的型号 预测变量的所有可能模型。 由术语的统计意义选择的模型序列。
要考虑的预测变量数 最多 31 个可用预测变量,以及每个模型中所需的任何预测变量。 无设置限制。
预测变量的类型 在工作表中隐藏列 文本或数字列加上交互术语和其他高阶术语。
响应变量的类型 数字列。 Minitab 中的不同分析可以分析不同类型的响应变量。对于逐步回归,可以为连续响应变量、二进制响应变量或泊瑟斯响应变量选择分析。
结果 结果包括探索数据的拟合性模型摘要统计信息。要查看完整的回归结果(如残差图),请浏览所选模型,如拟合回归模型 分析根据您选择的条件显示最佳模型的完整回归结果。您还可以选择查看过程中每个步骤的模型摘要统计信息。