发现最佳模型 (二值响应) 的数据注意事项

为确保结果有效，在收集数据、执行分析和解释结果时，请考虑以下准则。

响应变量应当是二元变量

二元响应具有两个结果，如通过或失败。如果响应变量为连续变量，请使用发现最佳模型 (连续响应)。

预测变量可以是连续变量或类别变量

可以对连续变量进行测量和排序，而且任意两个值之间有无限个值。例如，轮胎样本的直径即为连续变量。

类别变量包含有限、可数数目的类别或可区分组。类别数据可能不是逻辑顺序。例如，类别预测变量包括性别、材料类型和付款方式。

如果您有离散变量，则可以决定是将它视为连续预测变量还是类别预测变量。可以对离散变量进行测量和排序，但是离散变量具有可计数的值。例如，家庭成员数是离散变量。可根据水平数以及分析的目的来决定将离散变量视为连续变量还是类别变量。有关详细信息，请转到什么是类别、离散和连续变量？。

当案例数超过 2000 时，建议使用检验集

Minitab 使用交叉验证来比较 2000 ≤病例数时的模型。当案例数超过 2000 时，Minitab 将使用检验集。当数据集很大时，使用测试集进行验证会减少分析数据的时间。如需了解有关发现最佳模型 (二值响应)中的验证方法设置的基本信息，请转到指定发现最佳模型 (二值响应) 的验证方法。

模型应当提供良好的数据拟合

如果模型无法与数据拟合，则结果可能会具有误导性。所有模型类型都包括描述模型性能的模型摘要统计。使用交叉验证或测试集的结果来确定模型是否很好地预测了响应。