选择要为使用 TreeNet® 回归拟合模型发现关键预测变量 评估的超参数值

运行 预测分析模块 > TreeNet® 回归 > 拟合模型。 单击模型汇总表后的“调整超参数以确定更好的模型”按钮。

运行 预测分析模块 > TreeNet® 回归 > 发现关键预测变量。 单击模型汇总表后的“调整超参数以确定更好的模型”按钮。

概述

TreeNet® 模型的性能通常对学习速率、子样本部分和构成模型的单个树的复杂度等值敏感。在模型的结果中,单击 调整超参数以确定更好的模型 来评估这些超参数的多个值,以了解哪个组合产生准确度标准的最佳值,例如最大 R2 值。这些超参数的更好值有可能显著提高预测准确度,因此探索不同的值是分析中常见的一步。

您还可以调整模型包含的树数。一般来说,300 个树足以区分超参数值。通常,当一个或多个关注模型的最优树数接近最大树数时,您会增加树数。如果树数接近最大数,则增加树数更有可能提高模型的性能。

过度拟合保护参数

为每个超参数指定一个或多个值以进行评估。分析评估了超参数,以找到具有准确度标准最佳值的组合。如果您没有为超参数输入任何值,则评估将在结果中使用模型中该超参数的值。如果响应是二值响应,并且原始模型指定了要采样的事件和非事件的比率,则评估始终使用原始模型中的比率。

学习速率

输入最多 10 个值。合格值范围为 0.0001 到 1。除非您选择 评估完整的参数组合,否则对学习速率的评估是第一位的。如果先进行评估,则学习速率的评估使用学习速率和子样本部分的最小值。

子样本部分

输入最多 10 个值。合格值大于 0 且小于或等于 1。除非您选择 评估完整的参数组合,否则子样本的评估是第二位的。如果评估发生在第二位,则子样本部分的评估就使用分析中发现的学习速率的最佳值和子样本部分的最小值。

当原始模型指定要为二值响应而采样的事件和非事件的比率时,子样本部分 被禁用。

单值树的复杂度参数

选择是评估 最大终端节点数 还是 最大树深度。通常,任一选择都是识别有用模型的合理方法,选择仅取决于个人偏好。除非您选择 评估完整的参数组合,否则对复杂度参数的评估将在最后进行。如果评估发生在最后,则评估会使用通过分析已经发现的学习速率和子样本部分的最佳值。
最大终端节点数
输入最多 3 个值。合格值范围为 2 到 2000。通常,默认值 6 在计算速度与变量间交互作用调查之间提供了良好的平衡。值 2 排除了交互作用调查。
最大树深度
输入最多 3 个值。合格值范围在 2 到 1000 之间,以表示树的最大深度。根节点对应于深度 1。在许多应用中,从 4 到 6 的深度提供良好的模型

树数

输入介于 1 和 5000 之间的值,以设置要构建的最大树数。300 这个默认值通常为评估超参数值提供有用的结果。

如果一个或多个关注模型的树数接近您指定的树数,则考虑是否增加树数。如果树数接近最大数,则增加树数更有可能提高模型的性能。

评估完整的参数组合

如果您指定多个超参数的值,则评估表中的模型取决于您是否评估了超参数的完整组合。
  • 如果您选择 评估完整的参数组合,则算法评估超参数的每一个组合。此选项通常需要更长的时间来计算。
  • 否则,该算法将按此顺序评估超参数:
    1. 学习速率
    2. 子样本部分
    3. 单值树的复杂度参数
    例如,假设该算法接收以下超参数:
    • 学习速率:0.001、0.01、0.1
    • 子样本部分:0.4、0.5、0.7
    • 最大终端节点数:4、6
    1. 该算法将子样本比率设置为 0.4,将最大终端节点数设置为 4。然后,该算法根据从最小到最大的顺序来评估学习速率:0.001、0.01、0.1。
    2. 假设该算法将 0.01 确定为最佳学习速率。然后,该算法将学习速率设置为 0.01,将最大终端节点数设置为 4。然后,该算法评估 0.4、0.5 和 0.7 的子样本比率。
    3. 假设该算法将 0.5 确定为最佳子样本比率。然后算法将学习速率设置为 0.01,将子样本比率设置为 0.5。然后,该算法评估 4 和 6 的最大节点数。
    4. 假设该算法将 6 确定为最佳最大终端节点数。然后 Minitab 生成学习速率 = 0.01、子样本比率为 0.5 和最大终端节点数为 6 的模型的评估表和结果。

    在此示例中,不评估完整参数组合集的分析在评估表中包括 8 个模型。所有参数组合的分析包含 3 × 3 × 2 = 18 个组合,计算时间更长。

显示结果

指定要检查的值后,单击 显示结果。在一组新的结果中,Minitab 生成了一张表格,该表格比较超参数组合的准确度标准与具有准确度标准最佳值的模型的结果。

Minitab 为新模型重新创建与原始模型相同的表格和图形。新模型的表格和图形在一组新结果中。存储与原始分析相同。存储列位于同一个工作表中。例如,如果原始分析将拟合值存储在标题为“拟合值”的列中,则新分析将空白列标题命名为“Fit_1”并存储拟合值。