最佳子集回归和逐步回归的比较

最佳子集回归提供有关多个不同模型的拟合信息,从而使您可以根据多达 9 个不同的统计量来选择模型。(在简单表中,Minitab 显示 5 个统计量。)逐步回归根据单个统计量生成单个模型。由于每个模型中使用了不同的选择标准,因此最佳子集回归和逐步回归有可能得出不同的模型。选择使用何种方法的一般原则如下:
  • 对于预测变量较少的数据集,最佳子集回归比逐步回归更适用,因为最佳子集回归提供较多有关模型的信息。
  • 最佳子集回归允许您拥有 31 个自由预测变量,因此,对于具有较多预测变量的数据集,逐步回归优于最佳子集回归。在对预测变量较多的数据集使用逐步回归时,请选择较大的入选用 Alpha 水平和删除用 Alpha 水平(0.25 到 0.50)。较大的值使您可以进一步了解每个入选的预测变量对响应和已经包含在模型中的预测变量的影响。

验证模型

使用变量选择过程(如最佳子集和逐步回归)时需要谨慎。这些过程都是自动的,因此不会考虑任何预测变量的实际重要性。而且,当您将模型与数据拟合时,拟合优度来自两个基本来源:
  • 数据的基础结构(将适用于以相同方式收集的其他数据集的结构)
  • 您分析的一个特定数据集的特殊性

为了确保模型不只是拟合一个特定的数据集,应当针对新的数据集验证由选择过程找到的模型。您还可以获取原始的数据集,随机将其分成两部分,使用一部分来选择模型,然后对第二部分验证拟合。此过程有助于确保所选模型将适用于其他数据集。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策