使用 TreeNet® 分类拟合模型发现关键预测变量 的最优树数的选择

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

选择需要的方法或公式。

可在分析中构建您指定的任意数量的树,并根据每个树中的信息对模型进行较小的改动。如果分析中包含验证方法,则分析为每个树数计算训练数据和检验数据的模型选择标准的值。测试集的最优值决定了最优模型中的树数。

模型验证方法

当用于计算优化标准的数据与用于拟合模型的数据相同时,得到的优化标准(如最大对数似然)往往倾向于乐观。模型验证方法将部分数据排除在模型拟合过程外,然后计算统计量以评估模型在忽略的数据上的性能。模型验证技术可以更好地估计模型在新数据上的效果如何。根据您选择的分析内容,标准为最大对数似然、ROC 曲线下最大面积或最小误分类率。Minitab 提供了两种验证方法:k 折叠交叉验证和使用单独的测试集进行验证。

使用 K 折叠交叉验证的最优树

当数据具有的案例少于或等于 2000 时,K 折叠交叉验证是 Minitab 中的默认方法。由于该过程会重复 K 次,因此交叉验证通常比“使用测试集验证”要慢。

K 折叠交叉验证过程

为完成 K 折叠交叉验证,Minitab Statistical Software 将执行以下步骤:
  1. 将数据分成多个大小尽可能相等的 K 随机子集。子集称为折叠。
  2. 对于折叠 k, k = 1, ..., K,使用数据的剩余 K-1 折叠来生成树序列。利用第 k 个折叠的数据,计算每个树的模型选择标准值。
  3. 为所有 K 折叠重复步骤 2。
  4. 将每个树数的 K 折叠的模型选择标准值取平均。具有最佳平均值的树数构成了最优模型。

使用单独测试集的最优树

在使用测试集验证时,将留出一部分数据进行验证。其余数据是训练集。首先,Minitab 使用训练集生成树序列。然后,Minitab 使用测试集计算每个树数的模型选择标准值。具有最佳值的树数构成了最优模型。

无验证的最优树

没有任何验证时,Minitab 使用整个数据集来拟合模型。最终模型包含数量最多的树。