最佳子集回归的数据注意事项

为了确保结果有效，请在收集数据、执行分析和解释结果时考虑以下准则。

数据应包括多个连续预测变量

连续变量可以测量和排序，它可以拥有介于两个值之间的无限数量的值。例如，轮胎样本的直径是连续变量。

类别变量包含有限、可计数的类别数或可区分组数。类别数据可能不是逻辑顺序。例如，类别变量包括性别、材料类型和付款方式。

如果您有离散变量，则可以决定是将它视为连续预测变量还是类别预测变量。离散变量可以进行测量和排序，但是它具有可计数的值。例如，家庭成员数是离散变量。可根据水平数以及分析的目的来决定将离散变量视为连续变量还是类别变量。有关更多信息，请转到什么是类别、离散和连续变量？。

响应变量应当是连续变量

如果响应变量是类别变量，则您的模型不太可能满足分析假定、准确描述数据或者进行有用的预测。

使用最佳做法收集数据

要确保结果有效，请考虑以下准则：

模型应当提供良好的数据拟合

如果模型无法与数据拟合，则结果可能会具有误导性。最佳子集会确定候选模型并提供结果，以确定模型的拟合优度。最佳子集无法提供用来评估各个模型项的残差图或输出。如果您要评估此输出，请使用拟合回归模型进一步了解候选模型。