发现最佳模型 (连续响应) 的数据注意事项

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

为确保结果有效,在收集数据、执行分析和解释结果时,请考虑以下准则。

响应变量应当是连续变量
可以对连续变量进行测量和排序,而且任意两个值之间有无限个值。例如,轮胎样本的直径即为连续变量。

响应变量的数据必须是数字值。

如果响应变量为类别变量,请使用 发现最佳模型 (二值响应)

预测变量可以是连续变量或类别变量
可以使用连续预测变量或类别预测变量的组合;但是,每个预测变量的列长度必须与响应列的长度相同。允许缺失值。
  • 所有连续预测变量都必须为数字。
  • 类别预测变量可以是文本或数字值。
当案例数超过 2000 时,建议使用检验集

Minitab 使用交叉验证来比较 2000 ≤病例数时的模型。当案例数超过 2000 时,Minitab 将使用检验集。当数据集很大时,使用测试集进行验证会减少分析数据的时间。如需了解有关 发现最佳模型 (连续响应)中的验证方法设置的基本信息,请转到指定 发现最佳模型 (连续响应) 的验证方法

模型应当提供良好的数据拟合

如果模型无法与数据拟合,则结果可能会具有误导性。所有模型类型包括模型摘要统计描述模型的性能。使用交叉验证或测试集的结果来确定模型是否很好地预测了响应。在回归模型的输出中,还使用残余图来验证参数假设是否成立。