什么是逐步回归?

逐步回归是模型构建的解释阶段中所使用的一种自动化工具,用以确认预测变量的有用子集。过程在每个步骤中系统地添加最显著的变量,或删除最不显著的变量。

例如,房地产咨询公司收集了过去一年中有关住房销售的数据,目标是预测未来的销售价格。预测变量在 100 个以上时,找出最显著的模型可能是很费时的任务。Minitab 的逐步回归功能会自动输出最显著的模型以及 R2、调整的 R2、预测的 R2、S 和 Mallows Cp,以建立一个良好的开端。

常见的逐步回归过程

  • 标准逐步回归对每步按需添加和删除预测变量。当不在模型中的所有变量的 p 值都大于指定的入选用 Alpha 值且模型中所有变量的 p 值都小于等于指定的删除用 Alpha 值时,Minitab 将停止。
  • 向前选择法开始时模型为空,Minitab 在每个步骤中添加最显著的项。当不在模型中的所有变量的 p 值都大于指定的入选用 Alpha 值时,Minitab 将停止。
  • 向后消元法开始时模型中具有所有预测变量,Minitab 在每个步骤中删除最不显著的变量。当模型中所有变量的 p 值都小于等于指定的删除用 Alpha 值时,Minitab 将停止。

逐步回归问题

  • 如果两个预测变量高度相关,那么即使两个变量都重要,模型中也只能以一个变量告终。
  • 由于过程拟合了多个模型,因此选择的模型与数据拟合得很好可能是出于偶然。
  • 对于指定数量的预测变量,逐步回归可能无法始终以 R2 值最高的模型告终。
  • 自动过程无法考虑到分析人员对数据可能具有的特殊知识。因此,从实际观点来看,所选模型可能不是最佳模型。
使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策