拟合回归模型线性回归执行逐步回归

统计 > 回归 > 回归 > 拟合回归模型 > 逐步

预测分析模块 > 线性回归 > 逐步

方法

逐步删除项并将其添加到模型中,以便识别有用的项子集。如果选择逐步过程,则在模型对话框中指定的项是最终模型的候选项。有关详细信息,请转到使用逐步回归和最佳子集回归

指定 Minitab 用于拟合模型的方法。
  • :使模型与在模型对话框中指定的所有项拟合。
  • 逐步:此方法从空模型开始,或包括指定要包含在初始模型或每个模型中的项。然后,Minitab 为每个步骤添加或删除一个项。您可以指定要包含在初始模型中或强制包含到每个模型中的项。当模型中未包含的所有变量的 p 值大于指定的入选用 Alpha 值时,以及当模型中的所有变量的 p 值小于或等于指定的删除用 Alpha 值时,Minitab 将停止。
  • 向前选择法:此方法从空模型开始,或包括指定要包含在初始模型或每个模型中的项。然后,Minitab 为每个步骤添加最重要的项。当模型中未包含的所有变量的 p 值大于指定的入选用 Alpha 值时,Minitab 将停止。
  • 向后消元法:此方法从包含所有潜在项的模型开始,并删除每个步骤中最不重要的项。当模型中的所有变量的 p 值小于或等于指定的删除用 Alpha 值时,Minitab 将停止。
  • 转发信息标准:转发信息标准过程在每个步骤中向模型添加具有最低 p 值的项。如果分析设置允许考虑非分层项,但要求每个模型具有分层,则其他项可以在 1 个步骤中输入模型。Minitab 计算每个步骤的信息标准。在大多数情况下,该过程将继续,直到出现以下情况之一:
    • 该过程在连续 8 个步骤中没有发现标准改进。
    • 该过程拟合全模型。
    • 该过程拟合误差自由度为 1 的模型。
    如果为过程指定要求每个步骤具有分层模型且一次仅允许输入一个项的设置,则该过程将继续,直到它拟合全模型或拟合误差自由度为 1 的模型。Minitab 显示具有所选信息标准(AICc 或 BIC)最小值的模型的分析结果。
  • 前进法并验证:前进法并验证过程取决于验证方法。使用检验数据集时,该过程类似于前进法。在每个步骤结束时,Minitab 计算检验 R2 统计量。在前进法过程结束时,具有最大检验 R2 值的模型为最终模型。

    通过交叉验证,该过程在每个折叠上重复前进法。该过程评估每个步骤中的所有折叠,并标识具有最佳 K 折叠逐步 R2 值的步骤。该过程的最后一部分是对完整数据集执行前进法,在折叠上选择的最佳步骤处停止。

    对于这两种验证类型,该过程在遇到与前进法标准过程相同的停止情况时停止。

注意

最终模型中包含的项取决于模型的层次结构限制。有关详细信息,请参阅下面的层次结构主题。

潜在项

显示过程将评估的项集。列表中项旁边的指示符(EI表示过程处理项的方式。您选择的方法可以确定列表中的初始设置。您可以修改过程处理具有以下两个按钮的项的方式。如果您不使用这些按钮,过程可以从基于其 p 值的模型中添加或删除项。
  • E = 在每个模型中包括项:选择一个项并单击此按钮可将项强加于每个模型,而不论其 p 值多少。再次单击按钮可删除此条件。
  • I = 在初始模型中包括项:选择一个项并单击此按钮可在初始模型中包含项。如果项的 p 值过高,则该过程可以删除这些项。再次单击按钮可删除此条件。仅当在方法中选择了逐步后,此按钮才可用。

入选用 Alpha和删除

入选用 Alpha
输入 Minitab 所使用的 alpha 值来确定是否可以向模型中输入项。选择方法中的逐步向前选择法后,可以设置此值。
删除用 Alpha
输入 Minitab 所使用的 alpha 值来确定是否可以从模型中删除项。选择方法中的逐步向后消元法后,可以设置此值。

标准

Specify which information criterion to use in forward selection.

AICc 和 BIC 评估模型的似然,然后将用来添加项的惩罚应用于模型。惩罚会降低趋势,以使模型过度拟合样本数据。趋势降低可能会生成性能通常更佳的模型。

一般准则是,当参数个数相对于样本数量较小时,BIC 对于添加每个参数所施加的惩罚比 AICc 大。在这些情况下,最小化 BIC 的模型往往比最小化 AICc 的模型小。

在一些常见情况(如筛选设计)下,参数个数相对于样本数量通常较大。在这些情况下,最小化 AICc 的模型往往比最小化 BIC 的模型小。例如,对于包含 13 个游程的明确筛选设计,在一组包含 6 个或多个参数的模型中,最小化 AICc 的模型往往比最小化 BIC 的模型小。

有关 AICc 和 BIC 的更多信息,请参见 Burnham 和 Anderson。1

指定 前进法并验证的验证

注意

验证设置也位于 验证方式 子对话框中。如果更改设置,Minitab 会自动更新这两个位置的设置。

选择 前进法并验证 时,选择用于检验模型的验证方法。通常,对于较小的样本,K 折叠交叉验证方法比较合适。对于较大的样本,可以将数据分为训练数据集和检验数据集。

K 折叠交叉验证

完成以下步骤以使用 K 折叠交叉验证。

  1. 从下拉列表中,选择 K 折叠交叉验证
  2. 选择下列项之一,指定是随机分配折叠还是使用 ID 列来分配。
    • 随机分配每个折叠的行: 选择此选项可以让 Minitab 随机选择每个折叠的行。您可以指定折叠数。大多数情况下,默认值 10 效果良好。使用更小的 K 值可能会引入更多的偏倚;但是,K 值越大,引入的变异性可能更多。也可以为随机数生成元设置基数。
    • 按 ID 列分配每个折叠的行: 选择此选项可选择要包含在每个折叠中的行。在 ID 列 中,输入标识折叠的列。ID 列中具有相同值的每一行都位于同一折叠中。

使用测试集验证

完成以下步骤,将数据分为训练数据集和检验数据集。

  1. 从下拉列表中,选择 使用测试集验证
  2. 选择下列项之一,指定是随机选择一部分行还是使用 ID 列来选择一部分行。
    • 随机选择部分行作为测试集: 选择此选项可以让 Minitab 随机选择检验数据集。您可以指定在检验数据集中使用的数据量。大多数情况下,默认值 0.3 效果良好。您希望在检验数据集中包含足够的数据,以便充分评估模型。如果您不确定模型的形式,则较大的检验数据集可提供更有力的验证。您还希望在训练数据集中包含足够的数据,以便充分估计模型。通常,具有较多预测变量的模型需要较多的训练数据来进行估计。
    • 按 ID 列定义训练/测试拆分: 选择此选项可自行选择要包含在检验数据集中的行。 在 ID 列中, 输入列以指示哪些行用于检验样本。ID 列必须仅包含 2 个值。在 测试集水平中, 选择用作检验样本的水平。

层次结构

您可以确定 Minitab 如何在使用逐步法时强制执行模型层次结构。如果在模型对话框中指定非分层模型,将禁用层次结构按钮。

在分层模型中,组成高阶项的所有低阶项也将显示在模型中。例如,包含交互作用项 A*B*C 的模型为分层结构,但前提是该模型包括 A、B、C、A*B、A*C 和 B*C 项。

模型可能是非分层结构。通常情况下,如果低阶项不显著,您可以将其删除,除非专业领域知识建议您将其包含在模型中。包含过多项的模型的精确度相对较差,可能会降低预测新观测值的能力。

考虑以下建议:
  • 首先拟合分层模型。稍后删除不显著项。
  • 如果要标准化连续预测变量,请拟合分层模型,以生成用未编码(或自然)单位表示的方程。
  • 如果模型包含类别变量,那么当类别项至少是分层结构时,所得出的结果才更易于解释。
层次结构模型
选择逐步过程是否必须生成一个分层模型。
  • 每一步都要求使用层次结构模型:Minitab 只能添加或删除保留分层的项。
  • 在最后添加项以生成模型层次结构:最初,Minitab 会遵循逐步过程的标准规则。到最后一步,Minitab 会添加生成分层模型的项,即便其 p 值大于入选用 Alpha值也是如此。如果在方法转发信息标准时选中此选项,Minitab 会显示一个错误。要在这些步骤中在多个模型中获取可最小化该标准的分层模型,请选择每一步都要求使用层次结构模型
  • 不需要使用层次结构模型:最终模型可能是非分层模型。Minitab 仅根据逐步过程规则添加和删除项。
以下项需使用层次结构
如果需要一个分层模型,请选择必须有分层的项类型。
  • 所有项:包含连续变量和/或类别变量的项必须是分层的。
  • 具有类别预测变量的项:只有包含类别变量的项才必须是分层的。
每步可输入多少项
如果每一个步骤都需要分层,请选择 Minitab 可以在每一步添加以保留分层的项数。
  • 每步至多输入一项:如果仅在添加单个项时保留层次结构,可以向模型输入高阶项。所有组成高阶项的低阶项必须已经存在于模型中。
  • 可以输入额外项以保持层次结构:即便生成了非分层模型,高次项也可输入模型。但是,还会添加生成分层模型所必备的项,即便其 p 值大于 入选用 Alpha 值也是如此。

显示模型选择详细信息表

指定要显示的关于逐步过程的信息。
  • 该方法的详细信息:显示在模型中输入和/或删除预测变量的逐步过程类型和 alpha 值。
  • 包含每个步骤的详细信息:显示针对过程的每一个步骤的系数、p 值和模型汇总统计量。

显示 R 平方与步骤的图形

选择前进法并验证时,将为前进法的每个步骤显示训练和验证偏差 R2 值的图。通常,该图将用来确定简化模型是否具有相似的验证值。

1 Burnham, K. P. 和 Anderson, D. R. (2004)。Multimodel inference: Understanding AIC and BIC in model selection(多模型推断:了解模型选择中的 AIC 和 BIC)。Sociological Methods & Research(社会学方法和研究)33(2),第 261-304 页。doi:10.1177/0049124104268644