选择条件以确定最佳模型,并为不同的模型类型指定选项。您还可以为随机数生成器指定基数。

最佳模型的选择标准

选择条件以确定最佳模型类型。可以对多种方法的结果进行比较,以确定适合应用的最佳选择。
  • 最大 R 平方:默认方法适用于许多应用程序。此方法最小化平方误差的总和。
  • 最小平均绝对偏差:此方法最小化误差绝对值的总和。

使用包含开关值 K 的 Huber 损失函数来拟合 TreeNet® 回归模型: K =

Huber 函数是最大 R 平方和最小平均绝对偏差函数的混合函数。使用 Huber 函数,指定一个开关值。损失函数以平方误差的形式开始。只要值小于切换值,损失函数就保持为平方误差。如果平方误差超过切换值,则损失函数成为绝对偏差。如果绝对偏差小于切换值,则损失函数再次成为平方误差。

TreeNet® 回归模型的选项

指定TreeNet® 模型的选项。

树数
输入介于 1 和 5000 之间的值,以设置要构建的树数。默认值 300 会提供有用的初始结果。
如果最初选择的模型接近指定的树数,则考虑是否增加树数以寻找更好的模型。
每个树的最大终端节点数最大树深度
您还可以限制树的大小。选择下列选项之一可限制树的大小。
  • 每个树的最大终端节点数:输入介于 2 和 2000 之间的值,以表示树的最大终端节点数。通常,默认值 6 在计算速度与变量间交互作用调查之间提供了良好的平衡。值 2 排除了交互作用调查。
  • 最大树深度:输入介于 2 和 1000 之间的值,以表示树的最大深度。根节点对应于深度 1。默认深度为 4。在许多应用中,从 4 到 6 的深度提供良好的模型。
学习速率
最多指定 10 个学习率。
默认情况下,分析评估 3 个学习率。分析通常使用 3 个 K 值调整超参数:0.001, 0.1, 和 max(0.01, 0.1 * min(1.0, N/10000)),其中 N = 响应列中的行数。如果 max(0.01, 0.1 * min(1.0, N/10000)) = 0.001 或 0.1,则分析将使用 0.001、0.01 和 0.1 调整超参数。
子样本部分
最多指定 10 个子样本分数。在每次迭代中,该过程都会选择包含此数据部分的不同子集来构造树。子采样可防止过度拟合。子样本分数必须大于 0 且小于或等于 1。默认值为 0.5 和 0.7。
节点分裂的预测变量数
指定每次节点分裂要考虑的预测变量数。通常,当您考虑每个节点上的所有预测变量时,分析效果非常好。但是,当分析考虑在每个节点上使用预测变量的不同随机子集时,某些数据集的预测变量之间具有关联,这会使模型性能有所改进。对于此类情况,预测变量总数的平方根是一个典型的起始点。使用平方根并查看模型后,可以考虑使用总计百分指定更大还是更小的预测变量数。
  • 预测变量总数:选择此选项可将所有预测变量用于分裂节点。
  • 预测变量总数的平方根:选择此选项可将预测变量总数的平方根用于分裂节点。
  • 预测变量总数的百分 K;K =:选择此选项可将一定百分比的预测变量用于分裂节点。

Random Forests® 回归模型的选项

指定随机Random Forests® 模型的选项。

要使树增长的 Bootstrap 样本数
输入用于确定 bootstrap 样本数和分析生成的树数量的值。输入介于 3 到 3000 之间的值。
指定小于训练数据大小的 bootstrap 样本数
选择此选项可输入用于设置 bootstrap 样本数的值。必须输入大于或等于 5 的值。如果输入的数量值大于训练数据大小,Minitab 将使用等于训练数据大小的样本数量值。
节点分裂的预测变量数
指定每次节点分裂要考虑的预测变量数。通常,考虑使用预测变量总数的平方根时,分析效果良好。但是,当分析考虑将较大或较小的预测变量数用于每个节点时,某些数据集在预测变量之间具有关联,从而改进模型性能。使用平方根并查看模型后,请考虑是否更改预测变量数以尝试改进模型的性能。
  • 预测变量总数:选择此选项可将所有预测变量用于分裂节点。此选项创建的森林称为自举森林。
  • 预测变量总数的平方根:选择此选项可将预测变量总数的平方根用于分裂节点。
  • 预测变量总数的百分 K;K =:选择此选项可将一定百分比的预测变量用于分裂节点。
用于拆分内部节点的最小案例数
指定 1 到 3 个最小数字。默认情况下,分析的计算结果为 2、5 和 8。当数字为 2 时,可以将所有节点拆分为较小的节点,直到无法再次拆分。如果模型性能不足,请考虑是否尝试其他值来确定对性能的影响。

CART® 回归模型的选项

指定 CART® 模型的选项。

选择最佳树的标准
在这些条件之间进行选择以在结果中生成树。可以比较不同树的结果,以确定适合应用的最佳选择。
最大 R 平方的 K 个标准误内;K =
选择此选项可让 Minitab 选择 R2 值落在 R2 值最大的树的 K 个标准误内的最小树。默认情况下,K=1,因此结果中的树是 R2 值在最大 R2 值 1 个标准误内的最小回归树。
最大 R 平方
选择此选项可显示具有最大 R 平方值的树的结果。
用于拆分内部节点的最小案例数
输入节点可以拥有且仍可分裂为更多节点的最小案例数。默认值为 10。对于更大的样本,您可能需要增大此最小值。例如,如果内部节点具有 10 个或更多案例,Minitab 将尝试执行分裂。如果内部节点的案例数不超过 9 个,Minitab 则不尝试执行分裂。
仅当内部节点限制的值至少是终端节点限制的两倍时,内部节点限制才相关。内部节点限制至少是终端节点限制的 3 倍,允许合理数量的拆分器。通常,对于较大的数据集,较大的限制是合理的。
终端节点允许的最小案例数
输入可在终端节点中发生的最小案例数。默认值为 3。对于更大的样本,您可能需要增大此最小值。例如,如果分裂将创建小于 3 个案例的节点,则 Minitab 不执行分裂。

CART® 回归模型的选项

指定 MARS® 模型的选项。

基函数的最大数量
大多数情况下,默认值 30 效果良好。当 30 个基函数对于数据来说似乎太小时,请考虑更大的值。例如,当您认为超过 30 个预测变量很重要时,请考虑较大的值。
如果您不确定 30 是否足够,请查看初始结果。例如,如果 R 平方值随着分析添加基函数而呈上升趋势,则较大的值更有可能改善模型的拟合。
节之间的最小观测值数
允许 MARS® 选择
分析使用样本数量和模型复杂性来自动选择一个值。在大多数情况下,自动值效果很好。
用户指定的
值为 1 表示连续数据点有资格成为基函数更改的点。值 1 允许模型预测中更改最快速。考虑不同的值以查看对模型拟合的影响。例如,对于某些数据,较大的值会创建更平滑的模型,这些模型不太可能过度拟合训练数据。这种更平滑的模型有时在某些数据范围内不太准确。
允许的预测变量交互:

允许预测变量交互达到您指定的顺序。交互作用意味着预测变量的效应取决于其他预测变量的值。例如,谷物在烤箱中的干燥速度取决于烤箱中的时间,但时间的影响取决于烤箱的温度。时间和温度变量相互作用。

不允许任何交互作用 (加法模型)
不允许预测变量交互作用。在这种情况下,Minitab 使用基函数不交互的加法模型。
允许最高为阶数 2 的所有交互作用
顺序指定基函数中可以包含的不同预测变量的数量。例如,阶数为 2 表示预测变量的效应可以取决于 1 个其他预测变量的值。以下基函数是阶数 2 交互作用的示例:
  • BF1 = 最大值(0, X1 − 800)
  • BF2 = 最大值(0, X2 − 50) * BF1

随机数生成元基数

您可以为随机数生成元指定基数,以随机选择子样本和预测变量子集。通常,不需要更改基数。您可以更改基数以探索结果对随机选择的敏感性,或确保重复分析的随机选择相同。