逐步回归是模型构建的解释阶段中所使用的一种自动化工具,用以确认预测变量的有用子集。过程在每个步骤中系统地添加最显著的变量,或删除最不显著的变量。
例如,房地产咨询公司收集了过去一年中有关住房销售的数据,目标是预测未来的销售价格。预测变量在 100 个以上时,找出模型可能是很费时的任务。Minitab 的逐步回归功能自动标识要考虑的一系列模型。AICc、BIC、检验 R2、R2、调整后的 R2、预测的 R2、S 和 Mallows 的 Cp 等统计量可帮助您比较模型。Minitab 对于根据您使用的逐步过程所得到的最佳模型显示完整结果。
使用变量选择过程(如最佳子集和逐步回归)时需要谨慎。一个问题是,这些过程不能考虑分析人员可能拥有的有关数据的特殊知识。该过程无法考虑任何预测变量的实际重要性。
与过程无法考虑特殊知识相关的问题是,当两个预测变量高度相关时,过程只能选择两个预测变量中的一个,即使其中任何一个预测变量都很重要。例如,该过程可以删除成本低廉且易于测量的预测变量,以支持难以测量且成本高昂的相关预测变量。分析师必须利用他们对数据的了解来判断程序无法考虑的标准。
逐步过程的另一个问题是不同的模型可以优化不同的标准。例如,具有最高调整 R2 值的模型不一定是具有最高检验 R2 值的模型。分析师必须考虑不同的标准来选择最终模型。
为了确保模型不只是拟合一个特定的数据集,应当针对新的数据集验证由选择过程找到的模型。您还可以获取原始的数据集,随机将其分成两部分,对一部分使用最佳子集来选择模型,然后对第二部分验证拟合。此过程有助于确保所选模型将适用于其他数据集。转到使用自动验证的逐步过程部分,了解可以自动对数据进行分区并计算验证统计数据的命令。
Minitab 中包括自动逐步过程的所有分析都包括以下过程。通过以下方法,您可以根据用于构建模型的数据的模型汇总统计数据快速评估大量不同的模型。
Minitab 可以对检验数据集自动执行的逐步过程称为使用检验数据集进行验证的正向选择。在此过程中,初始模型为空或包含您专门选择的模型项。然后,Minitab 在每个步骤中添加具有最小 p 值的下一个潜在项。Minitab 将模型在每个步骤中的检验 R2 计算为检验数据集上模型的 R2 值。Minitab 提供的模型结果适用于检验 R2 值最大值的模型。
对于 拟合回归模型,您可以选择第二种验证技术来执行逐步选择,称为 k 折交叉验证的正向选择。在 k 折交叉验证中,Minitab 将数据集划分为 k 个子集。这些子集称为折叠。大多数情况下,验证使用 10 个折叠,但也可以使用其他数字。折叠具有尽可能接近相等的观测值数。Minitab 执行正向选择 k 次。对于每个前向选择,k-1 折叠是训练数据集,最后一个折叠是测试数据集。与其他正向选择过程一样,初始模型为空或包含您专门选择的模型项。然后,Minitab 在每个步骤中添加具有最小 p 值的下一个潜在项。对于每个步骤,Minitab 通过组合来自不同逐步选择过程的信息来计算 k 折叠逐步 R2 值。
分层模型是这样一种模型:对于模型中的每一项,模型中还必须包括该项中所包含的所有低次项。例如,假设一个模型具有以下四个因子:A、B、C 和 D。如果模型中有项 A * B * C,则项 A、B、C、A*B、A*C 和 B*C 也必须位于模型中,但任何带有 D 的项都不必位于模型中。
在某个步骤中进入或离开模型的项取决于层次结构的规范。默认情况下,Minitab Statistical Software 在每个步骤中都需要一个分层模型,所有项都需要分层结构,并且每个步骤只允许一个项进入模型。这些设置限制了 Minitab 在每个步骤中考虑的项。例如,除非交互作用中的两个低阶项都已在模型中,否则双向交互作用无法进入模型。您可以通过在选择逐步方法时单击 层次结构 来调整这些设置。
最佳子集回归是一种自动化工具,用于模型构建的探索阶段,用于识别有用的预测变量子集。该过程显示您为每个大小请求的模型数的模型汇总结果:具有一个预测变量的模型、具有两个预测变量的模型,依此类推。显示的模型在该大小的可能模型中具有最高的 R2 值。要在 Minitab 中使用最佳子集回归,请选择 。
作为一种自动选择过程,最佳子集回归与逐步回归有许多共同的问题。该过程不能使用分析人员所拥有的专业知识,也不能保证不同的标准可以识别相同的模型。预测变量之间的相关性会使最佳模型的识别更加困难。使用新数据验证模型可以提高您对模型性能的信心。
最佳子集是 Minitab Statistical Software 中的分析。逐步回归是多种分析中的一个选项。这两种自动模型选择技术都提供了有关多个不同模型的拟合的信息。从不同的模型中,您可以确定任何值得进一步探索的模型。
特征 | 最佳子集回归 | 逐步回归 |
---|---|---|
考虑的模型 | 预测变量的所有可能模型。 | 由项的统计显著性选择的模型序列。 |
要考虑的预测变量数 | 最多 31 个免费预测变量,以及每个模型中所需的任何预测变量。 | 没有设置限制。 |
预测变量的类型 | 工作表中的数值列。 | 文本或数字列加上交互项和其他高阶项。 |
响应变量的类型 | 一个数值列。 | Minitab 中的不同分析可以分析不同类型的响应变量。对于逐步回归,您可以选择连续响应变量、二元响应变量或 Poisson 响应变量的分析。 |
结果 | 结果包括探索数据拟合的模型汇总统计量。要查看完整的回归结果(如残差图),请在分析中浏览您选择的模型,例如 拟合回归模型。 | 分析将根据您选择的标准显示最佳模型的完整回归结果。您还可以选择查看过程中每个步骤的模型摘要统计信息。 |