选择的选项 发现最佳模型 (二值响应)

预测分析模块 > 自动化机器学习 > 发现最佳模型 (二值响应) > 选项
注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

选择标准以确定最佳型号,并指定不同型号的选项。您还可以指定随机数生成器的基数以及何时向事件类分配预测。

最佳模型的选择标准

选择用于生成最优模型的方法。可以对多种方法的结果进行比较,以确定适合应用的最佳选择。
  • 最大对数似然:极大似然方法可用来查找数据似然函数的最大值。
  • ROC 曲线下最大面积:“ROC 曲线下最大面积”方法适用于许多应用。ROC 曲线下面积可衡量模型对各行从最有可能生成事件到最不可能生成事件的排秩效果。
  • 最小误分类率:选择此选项可显示将误分类率降至最低的模型的结果。误分类率基于一个简单的计数,即模型正确或错误预测案例的频率。

TreeNet® 分类模型的选项

指定 TreeNet® 模型的选项。

树数
输入介于 1 和 5000 之间的值,以设置要构建的树数。默认值 300 会提供有用的初始结果。
如果最初选择的模型接近指定的树数,则考虑是否增加树数以寻找更好的模型。
每个树的最大终端节点数最大树深度
您还可以限制树的大小。选择下列选项之一可限制树的大小。
  • 每个树的最大终端节点数:输入介于 2 和 2000 之间的值,以表示树的最大终端节点数。通常,默认值 6 在计算速度与变量间交互作用调查之间提供了良好的平衡。值 2 排除了交互作用调查。
  • 最大树深度:输入介于 2 和 1000 之间的值,以表示树的最大深度。根节点对应于深度 1。默认深度为 4。在许多应用中,从 4 到 6 的深度提供良好的模型。
学习速率
指定最多 10 个学习率。
默认情况下,分析会评估 3 个学习率。分析通常用 K 的 3 个值调整超参数:0.001、0.1 和最大值(0.01、0.1 * 最小值(1.0、N/10000),其中响应列中的 N = 行数。如果最大值(0.01,0.1 * 分钟(1.0,N/10000)= 0.001 或 0.1,则分析会以 0.001、0.01 和 0.1 调整超参数。
子样本部分
指定最多 10 个子萨姆分数。在每个迭代中,程序选择包含该部分数据以构建树的不同子集。子采样可防止过度拟合。合格值大于 0 且小于或等于 1。常用值为 0.5 和 0.7。
节点分裂的预测变量数
指定每次节点分裂要考虑的预测变量数。通常,当您考虑每个节点上的所有预测变量时,分析效果非常好。但是,当分析考虑在每个节点上使用预测变量的不同随机子集时,某些数据集的预测变量之间具有关联,这会使模型性能有所改进。对于此类情况,预测变量总数的平方根是一个典型的起始点。使用平方根并查看模型后,可以考虑使用总计百分指定更大还是更小的预测变量数。
  • 预测变量总数:选择此选项可将所有预测变量用于分裂节点。
  • 预测变量总数的平方根:选择此选项可将预测变量总数的平方根用于分裂节点。
  • 预测变量总数的百分 K;K =:选择此选项可将一定百分比的预测变量用于分裂节点。

Random Forests® 分类模型的选项

指定 Random Forests® 模型的选项。

要使树增长的 Bootstrap 样本数
输入用于确定 bootstrap 样本数和分析生成的树数量的值。输入介于 3 到 3000 之间的值。
指定小于训练数据大小的 bootstrap 样本数
选择此选项可输入用于设置 bootstrap 样本数的值。必须输入大于或等于 5 的值。如果输入的数量值大于训练数据大小,Minitab 将使用等于训练数据大小的样本数量值。
节点分裂的预测变量数
指定每次节点分裂要考虑的预测变量数。通常,考虑使用预测变量总数的平方根时,分析效果良好。但是,当分析考虑将较大或较小的预测变量数用于每个节点时,某些数据集在预测变量之间具有关联,从而改进模型性能。使用平方根并查看模型后,请考虑是否更改预测变量数以尝试改进模型的性能。
  • 预测变量总数:选择此选项可将所有预测变量用于分裂节点。此选项创建的森林称为自举森林。
  • 预测变量总数的平方根:选择此选项可将预测变量总数的平方根用于分裂节点。
  • 预测变量总数的百分 K;K =:选择此选项可将一定百分比的预测变量用于分裂节点。
用于拆分内部节点的最小案例数
指定从 1 到 3 个最低数字。默认情况下,分析会评估 2、5 和 8。默认值为 2,以便所有节点都可以分裂为更小的节点,直到无法进行另一次分裂。如果模型性能不足,请考虑是否更改此值,以查看对性能的影响。

CART® 分类模型的选项

指定 CART® 模型的选项。

节点分裂方法
选择用于生成决策树的分裂方式。可以对多种分裂方式的结果进行比较,以确定适合应用的最佳选择。
  • 基尼:基尼方法是默认方法。基尼方法适用于许多应用。基尼方法通常生成包含小节点的树,这些节点的受关注响应的浓度很高。
  • :熵方法与节点的特定似然函数的最大值成正比。
选择最佳树的标准
在以下条件中进行选择,以在结果中选择树。可以比较不同树的结果,以确定适合应用的最佳选择。
  • 最小误分类成本:选择此选项可显示将误分类成本降至最低的树的结果。
  • 最小误分类成本的 K 个标准误内;K =:选择此选项可显示最小误分类成本在最小误分类成本 K 个标准误内的最小树的结果。
用于拆分内部节点的最小案例数
输入节点可以拥有且仍可分裂为更多节点的最小案例数。默认值为 10。对于更大的样本,您可能需要增大此最小值。例如,如果内部节点具有 10 个或更多案例,Minitab 将尝试执行分裂。如果内部节点的案例数不超过 9 个,Minitab 则不尝试执行分裂。
只有当值至少是终端节点限制的两倍时,内部节点限制才相关。如果内部节点限值至少是终端节点限值的 3 倍,则分裂变量的数量会更加合理。通常,较大的限制对于较大的数据集是合理的。
终端节点允许的最小案例数
输入可在终端节点中发生的最小案例数。默认值为 3。对于更大的样本,您可能需要增大此最小值。例如,如果分裂将创建小于 3 个案例的节点,则 Minitab 不执行分裂。

随机数生成元基数

您可以为随机数生成元指定基数,以随机选择子样本和预测变量子集。通常,不需要更改基数。您可以更改基数以探索结果对随机选择的敏感性,或确保重复分析的随机选择相同。

分配事件类

指定最小预测概率,在达到该预测概率时,会为事件类别分配案例。此选项会影响 TreeNet® 模型和二进制物流回归模型。

  • 事件概率超过指定值:指定最小预测概率,在达到该预测概率时,会为事件类别分配案例。例如,值为 0.5 表示 Minitab 会在事件概率高于 0.5 时为事件类别分配案例。
  • 事件概率超过样本事件发生率:如果指定此选项,将使用训练数据中的样本事件发生率作为为案例分配预测类别的阈值。当样本事件发生率大于 0.50 时,此选项使事件不太可能归为事件,更有可能归为非事件。通常,如果您希望针对阈值为 0.50 时事件和非事件的误分类率来平衡事件和非事件的误分类率,请考虑此选项。