指定 发现最佳模型 (二值响应) 的验证方法

预测分析模块 > 自动化机器学习 > 发现最佳模型 (二值响应) > 验证
注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

选择验证方法以确定最佳型号类型。通常,对于较小的样本,K 折叠交叉验证方法比较合适。对于较大的样本,可以选择使用一部分案例来进行训练和检验。

Minitab 呈现的选择取决于数据集的大小。选择与子对话中的选择相结合 ,提供平衡严谨性和计算速度的分析:
N < 1,000
子对话的验证方法 验证K 折叠交叉验证。单位数是 5。 Logistic 回归模型选择法 子对话上是 逐步
1,000 ≤ N < 1,500
子对话的验证方法 验证K 折叠交叉验证。单位数是 3。 Logistic 回归模型选择法 子对话上是 逐步
1,500 ≤ N
子对话的验证方法 验证使用测试集验证。测试集中的数据比例为 0.3。子 Logistic 回归模型选择法 对话是 前进法并验证,它使用测试集。

K 折叠交叉验证

完成以下步骤,使用 K 折叠交叉验证方法来验证检验样本。

  1. 从下拉列表中,选择K 折叠交叉验证
  2. 指定检验员人数大多数情况下,默认值 10 效果良好。在任一情况下,更大的折叠数增加了选择更可靠的预测模型的机会,尤其是对于行数较少的数据集,但可能显著增加计算时间。较大的数字可以显著增加计算时间。
  3. (可选)选择存储 K 折叠交叉验证的 ID 列以保存 ID 列。

使用测试集验证

完成以下步骤,指定一部分数据用于训练和检验。在许多情况下,将使用 70% 的数据进行训练,使用 30% 的数据进行检验。

  1. 从下拉列表中,选择使用测试集验证
  2. 指定测试集数据的分数。大多数情况下,默认值 0.3 效果良好。对于较大的数据集,您可能希望增加用于检验的数据比例。也可以为随机数生成元设置基数。当您在分析的不同运行中输入同一基数时,将行分配到测试集是相同的。
  3. (可选)选择存储训练/测试拆分的 ID 列以保存 ID 列。