指定验证方法 - CART® 分类

统计 > 预测分析  > CART® 分类 > 验证

选择用于检验模型的验证方法。通常,对于较小的样本,K 折叠交叉验证方法比较合适。对于较大的样本,可以选择使用一部分案例来进行训练和检验。

K 折叠交叉验证

完成以下步骤,使用 K 折叠交叉验证方法来验证检验样本。当行数小于等于 5000 时,K 折叠交叉验证方法为默认方法。

  1. 从下拉列表中选择 K 折叠交叉验证
  2. 选择下列项之一,指定是随机分配折叠还是使用 ID 列来分配。
    • 随机分配每个折叠的行:选择此选项可以让 Minitab 随机选择每个折叠的行。您可以指定折叠数。大多数情况下,默认值 10 效果良好。使用更小的 K 值可能会引入更多的偏倚;但是,K 值越大,引入的变异性可能更多。也可以为随机数生成元设置基数。
    • 按 ID 列分配每个折叠的行:选择此选项可选择要包含在每个折叠中的行。在 ID 列中,输入包含每个折叠行的列。
  3. (可选)选中 存储 K 折叠交叉验证的 ID 列 以保存 ID 列。

使用测试集验证

完成以下步骤,指定一部分数据用于训练和检验。当行数大于 5000 时,“检验集”验证方法为默认方法。在许多情况下,将使用 70% 的数据进行训练,使用 30% 的数据进行检验。

  1. 从下拉列表中选择 使用测试集验证
  2. 选择下列项之一,指定是随机选择一部分行还是使用 ID 列来选择。
    • 随机选择部分行作为测试集:选择此选项可以让 Minitab 随机选择一部分行进行检验。您可以指定比例。大多数情况下,默认值 0.3 效果良好。对于较大的数据集,您可能希望增加用于检验的数据比例。也可以为随机数生成元设置基数。
    • 按 ID 列定义训练/测试拆分:选择此选项可选择要包含在检验样本中的行。在 ID 列中,输入列以指示哪些行用于检验样本。ID 列必须仅包含 2 个值。在 测试集水平中,选择用作检验样本的水平。
  3. (可选)选中 存储训练/测试拆分的 ID 列 以保存 ID 列。

如果选择了 ,则不会执行其他验证。