为使用 TreeNet® 回归拟合模型发现关键预测变量 选择分析选项

以下分析的分析选项相同:

预测分析模块 > TreeNet® 回归 > 拟合模型 > 选项

预测分析模块 > TreeNet® 回归 > 发现关键预测变量 > 选项

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

选择分析选项。

损失函数
选择用于创建模型的损失函数。可以比较不同函数的结果,以确定适合应用的最佳选择。
  • 平方误差:平方误差函数是默认函数。这是基于均值的损失函数。此损失函数适用于许多应用。
  • 绝对偏差:绝对偏差函数是基于中位数的损失函数。
  • Huber:Huber 函数是平方误差和绝对偏差函数的混合。
使用Huber函数时,指定切换值。损失函数以平方误差的形式开始。只要值小于切换值,损失函数就保持为平方误差。如果平方误差超过切换值,则损失函数成为绝对偏差。如果绝对偏差小于切换值,则损失函数再次成为平方误差
树数
输入介于 1 和 5000 之间的值,以设置要构建的树数。默认值 300 会提供有用的初始结果。
如果最初选择的模型接近指定的树数,则考虑是否增加树数以寻找更好的模型。
每个树的最大终端节点数最大树深度
您还可以限制树的大小。选择下列选项之一可限制树的大小。
  • 每个树的最大终端节点数:输入介于 2 和 2000 之间的值,以表示树的最大终端节点数。通常,默认值 6 在计算速度与变量间交互作用调查之间提供了良好的平衡。值 2 排除了交互作用调查。
  • 最大树深度:输入介于 2 和 1000 之间的值,以表示树的最大深度。根节点对应于深度 1。默认深度为 4。在许多应用中,从 4 到 6 的深度提供良好的模型。
终端节点允许的最小案例数
输入终端节点的最小案例数。例如,如果最小案例数为 3,拆分将创建案例数小于 3 的节点,则 Minitab 不执行拆分。
过度拟合保护
使用以下选项可最大限度地减少模型的过度拟合。
学习速率
学习速率是两个极其重要的超参数之一,您可以通过调整这些超参数来确定数据的最优模型。
默认情况下,如果训练数据中的案例数为 1000 或更少,Minitab 将使用 0.01 作为学习速率。对于超过 1000 个案例的数据集,默认学习速率为 max[0.01, 0.1 * min(1.0, N/10000)]。例如,当数据集有 9000 个响应时,则学习速率 = 0.09。
如果初始模型不能很好地预测数据,请考虑将学习速率提高或降低 5 或 10 倍,以查看能否获得更好的模型。
子样本部分
指定为了构建分析中的每个树而需要随机选择的学习数据所占的比例。通常,比例为 .0.5 即可。如果初始模型不适合您的数据,请考虑将比例从默认值 0.5 提高到 0.70 或更高。
节点分裂的预测变量数
指定每次节点分裂要考虑的预测变量数。通常,当您考虑每个节点上的所有预测变量时,分析效果非常好。但是,当分析考虑在每个节点上使用预测变量的不同随机子集时,某些数据集的预测变量之间具有关联,这会使模型性能有所改进。对于此类情况,预测变量总数的平方根是一个典型的起始点。使用平方根并查看模型后,可以考虑使用总计百分指定更大还是更小的预测变量数。
  • 预测变量总数:选择此选项可将所有预测变量用于分裂节点。
  • 预测变量总数的平方根:选择此选项可将预测变量总数的平方根用于分裂节点。
  • 预测变量总数的百分 K;K =:选择此选项可将一定百分比的预测变量用于分裂节点。
随机数生成元基数
您可以为随机数生成元指定基数,以随机选择子样本和预测变量子集。通常,不需要更改基数。您可以更改基数以探索结果对随机选择的敏感性,或确保重复分析的随机选择相同。
权重
输入包含案例权重的列。该列所具有的行数必须与响应列所具有的行数相同。值必须大于等于 0。Minitab 会在分析中忽略包含缺失值或零的行。