最佳子集回归和逐步回归的比较

最佳子集回归提供有关多个不同模型的拟合信息,从而使您可以根据四个不同的统计量来选择模型。逐步回归根据单个统计量生成单个模型。由于每个模型中使用了不同的选择标准,因此最佳子集回归和逐步回归有可能得出不同的模型。选择使用何种方法的一般原则如下:
  • 对于预测变量较少的数据集,最佳子集回归比逐步回归更适用,因为最佳子集回归提供较多有关模型的信息。
  • 最佳子集仅允许您包含 31 个自由预测变量,因此对于预测变量较多的数据集,逐步回归比最佳子集回归更适用。对预测变量较多的数据集使用逐步回归时,请选择较大的入选用 Alpha 和删除用 Alpha 水平(0.25 到 0.50)。这样使您可以进一步了解每个入选的预测变量对响应变量和已经包含在模型中的预测变量的效应。

验证模型

使用变量选择过程(如最佳子集和逐步回归)时需要谨慎。这些过程都是自动的,因此不会考虑任何预测变量的实际重要性。而且,当您将模型与数据拟合时,拟合优度来自两个基本来源:
  • 数据的基础结构(将适用于以相同方式收集的其他数据集的结构)
  • 您分析的一个特定数据集的特殊性

要确保模型不会只与某个特定的数据集拟合,您应验证通过对新数据集执行选择过程找到的模型。您也可以采用原始的数据集,随机将其分成两部分,对一部分使用最佳子集来选择模型,然后对另一部分验证拟合。这有助于确保所选模型适用于以相同方式收集的其他数据集。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策