指定CART® 回归的验证方法

预测分析模块 > CART® 回归 > 验证

选择用于检验模型的验证方法。通常,对于较小的样本,K 折叠交叉验证方法比较合适。对于较大的样本,可以选择使用一部分案例来进行训练和检验。

K 折叠交叉验证

如果要使用 K 折叠交叉验证方法来验证检验样本,请完成以下步骤。当行数小于等于 5000 时,K 折叠交叉验证方法为默认方法。

  1. 从下拉列表中,选择 K 折叠交叉验证
  2. 选择下列项之一,指定是随机分配折叠还是使用 ID 列来分配:
    • 随机分配每个折叠的行:选择此选项可以让 Minitab 随机选择每个折叠的行。您可以指定折叠数。大多数情况下,默认值 10 效果良好。使用的 K 值越小,偏倚越大;而使用的 K 值越大,变异性越大。也可以为随机数生成元设置基数。
    • 按 ID 列分配每个折叠的行:选择此选项可选择要包含在每个折叠中的行。在 ID 列中,输入包含每个折叠行的列。
  3. (可选)选中存储 K 折叠交叉验证的 ID 列以保存 ID 列。

使用测试集验证

如果要指定一部分数据来进行训练和检验,请完成以下步骤。当行数大于 5000 时,“检验集”验证方法为默认方法。在许多情况下,将使用 70% 的数据进行训练,使用 30% 的数据进行检验。

  1. 从下拉列表中,选择使用测试集验证
  2. 选择下列项之一,指定是随机选择一部分行还是使用 ID 列来选择。
    • 随机选择部分行作为测试集:选择此选项可以让 Minitab 随机选择一部分行进行检验。您可以指定比例。大多数情况下,默认值 0.3 效果良好。对于较大的数据集,您可能希望增加用于检验的数据比例。也可以为随机数生成元设置基数。
    • 按 ID 列定义训练/测试拆分:选择此选项可选择要包含在检验样本中的行。在 ID 列中,输入列以指示哪些行用于检验样本。ID 列必须仅包含 2 个值。在测试集水平中,选择用作检验样本的水平。
  3. (可选)选中存储训练/测试拆分的 ID 列以保存 ID 列。

如果选择,则不会执行其他验证。