指定 发现最佳模型 (连续响应) 的验证方法

预测分析模块 > 自动化机器学习 > 发现最佳模型 (连续响应) > 验证
注意

此命令适用于预测分析模块单击此处了解更多关于如何激活模块的信息

选择验证方法以确定最佳型号类型。通常,对于较小的样本,K 折叠交叉验证方法比较合适。对于较大的样本,可以选择使用一部分案例来进行训练和检验。

Minitab 呈现的选择取决于数据集的大小。选择与子对话中的选择相结合 ,提供平衡严谨性和计算速度的分析:
N < 1,500
子对话的验证方法 验证K 折叠交叉验证。单位数是 5。 回归模型选择法 子对话上是 逐步
1,500 ≤ N < 2,000
子对话的验证方法 验证K 折叠交叉验证。单位数是 5。 回归模型选择法 子对话上是 前进法并验证
2,000 ≤ N
子对话的验证方法 验证使用测试集验证。测试集中的数据比例为 0.3。 回归模型选择法 子对话上是 前进法并验证

K 折叠交叉验证

完成以下步骤,使用 K 折叠交叉验证方法来验证检验样本。

  1. 从下拉列表中,选择K 折叠交叉验证
  2. 指定检验员人数大多数情况下,默认值 5 效果良好。在任一情况下,更大的折叠数增加了选择更可靠的预测模型的机会,尤其是对于行数较少的数据集,但可能显著增加计算时间。较大的数字可以显著增加计算时间。
  3. (可选)选择存储 K 折叠交叉验证的 ID 列以保存 ID 列。

使用测试集验证

完成以下步骤,指定一部分数据用于训练和检验。在许多情况下,将使用 70% 的数据进行训练,使用 30% 的数据进行检验。

  1. 从下拉列表中,选择使用测试集验证
  2. 指定测试集数据的分数。大多数情况下,默认值 0.3 效果良好。对于较大的数据集,您可能希望增加用于检验的数据比例。也可以为随机数生成元设置基数。当您在分析的不同运行中输入同一基数时,将行分配到测试集是相同的。
  3. (可选)选择存储训练/测试拆分的 ID 列以保存 ID 列。