什么是逐步回归?

逐步回归是模型构建的解释阶段中所使用的一种自动化工具,用以确认预测变量的有用子集。过程在每个步骤中系统地添加最显著的变量,或删除最不显著的变量。

例如,房地产咨询公司收集了过去一年中有关住房销售的数据,目标是预测未来的销售价格。预测变量在 100 个以上时,找出模型可能是很费时的任务。Minitab 的逐步回归功能自动标识要考虑的一系列模型。AICc、BIC、R2、调整的 R2、预测的 R2、S 和 Mallows Cp 等统计量可帮助比较模型。Minitab 对于根据您使用的逐步过程所得到的最佳模型显示完整结果。

常见的逐步回归过程

  • 标准逐步回归对每步按需添加和删除预测变量。当不在模型中的所有变量的 p 值都大于指定的入选用 Alpha 值且模型中所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 停止。
  • 向前信息标准选择法开始时模型为空,Minitab 在每个步骤中添加具有最小 p 值的项。当模型使用所有自由度时,或者当不存在要添加的其他项时,Minitab 停止。Minitab 显示的模型结果所针对的是对于您为该过程选择的信息标准具有最小值的模型。此信息标准是 AICc 或 BIC。最后一个步骤中的最大模型不必具有该标准的最小值。
  • 向前选择法开始时模型为空,Minitab 在每个步骤中添加最显著的项。当不在模型中的所有变量的 p 值都大于指定的入选用 Alpha 值时,Minitab 停止。
  • 向后消元法开始时模型中具有所有预测变量,Minitab 在每个步骤中删除最不显著的变量。当模型中所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 停止。

逐步回归问题

  • 如果两个预测变量高度相关,则即使两个变量可能都重要,模型中也只能以一个变量告终。
  • 由于过程拟合许多模型,因此选择的模型可能是出于偶然与数据拟合得很好。
  • 对于给定的预测变量集合,逐步回归可能无法始终以针对任何给定的标准具有最高值的模型告终。
  • 自动过程无法考虑到分析人员对数据可能具有的特殊知识。因此,从实际观点来看,所选模型可能不是最佳模型。
使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策