为使用 TreeNet® 分类拟合模型发现关键预测变量 指定验证方法

预测分析模块 > TreeNet® 分类 > 拟合模型 > 验证

预测分析模块 > TreeNet® 分类 > 发现关键预测变量 > 验证

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

选择用于检验模型的验证方法。通常,对于较小的样本,K 折叠交叉验证方法比较合适。对于较大的样本,可以选择使用一部分案例来进行训练和检验。

K 折叠交叉验证

完成以下步骤,使用 K 折叠交叉验证方法来验证检验样本。当行数小于等于 2000 时,K 折叠交叉验证方法为默认方法。

  1. 从下拉列表中,选择K 折叠交叉验证
  2. 选择下列项之一,指定是随机分配折叠还是使用 ID 列来分配。
    • 随机分配每个折叠的行:选择此选项可以让 Minitab 随机选择每个折叠的行。您可以指定折叠数。对于 拟合模型,大多数情况下,默认值 5 效果良好。对于 发现关键预测变量,默认值 3 使计算速度相对较快。在任一情况下,更大的折叠数增加了选择更可靠的预测模型的机会,尤其是对于行数较少的数据集,但可能显著增加计算时间。
    • 按 ID 列分配每个折叠的行:选择此选项可选择要包含在每个折叠中的行。在 ID 列中,输入包含每个折叠行的列。
  3. (可选)选中存储 K 折叠交叉验证的 ID 列以保存 ID 列。

使用测试集验证

完成以下步骤,指定一部分数据用于训练和检验。当行数大于 2000 时,“检验集”验证方法为默认方法。在许多情况下,将使用 70% 的数据进行训练,使用 30% 的数据进行检验。

  1. 从下拉列表中,选择使用测试集验证
  2. 选择下列项之一,指定是随机选择一部分行还是使用 ID 列来选择。
    • 随机选择部分行作为测试集:选择此选项可以让 Minitab 随机选择一部分行进行检验。您可以指定比例。大多数情况下,默认值 0.3 效果良好。对于较大的数据集,您可能希望增加用于检验的数据比例。也可以为随机数生成元设置基数。
    • 按 ID 列定义训练/测试拆分:选择此选项可选择要包含在检验样本中的行。在ID 列中,输入列以指示哪些行用于检验样本。ID 列必须仅包含 2 个值。在测试集水平中,选择用作检验样本的水平。
  3. (可选)选中存储训练/测试拆分的 ID 列以保存 ID 列。

如果选择,则不会执行其他验证。