为使用 TreeNet® 分类拟合模型发现关键预测变量 选择分析选项

预测分析模块 > TreeNet® 分类 > 拟合模型 > 选项

预测分析模块 > TreeNet® 分类 > 发现关键预测变量 > 选项

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

选择分析选项。

最优树数选择标准
选择用于生成最优模型的方法。可以对多种方法的结果进行比较,以确定适合应用的最佳选择。
  • 最大对数似然:极大似然方法可用来查找数据似然函数的最大值。这是二元响应的默认值。
  • ROC 曲线下最大面积:“ROC 曲线下最大面积”方法适用于许多应用。ROC 曲线下面积可衡量模型对各行从最有可能生成事件到最不可能生成事件的排秩效果。此选项适用于二元响应。
  • 最小误分类率:选择此选项可显示将误分类率降至最低的模型的结果。误分类率基于一个简单的计数,即模型正确或错误预测案例的频率。这是多项式响应的默认值。
使用 最小误分类率 和二值响应,选择如何在 结果 子对话框上指定事件类别。有关详细信息,请转到选择要为使用 TreeNet® 分类 的 拟合模型 和 发现关键预测变量 显示的结果
树数
输入介于 1 和 5000 之间的值,以设置要构建的树数。默认值 300 会提供有用的初始结果。
如果最初选择的模型接近指定的树数,则考虑是否增加树数以寻找更好的模型。
每个树的最大终端节点数最大树深度
您还可以限制树的大小。选择下列选项之一可限制树的大小。
  • 每个树的最大终端节点数:输入介于 2 和 2000 之间的值,以表示树的最大终端节点数。通常,默认值 6 在计算速度与变量间交互作用调查之间提供了良好的平衡。值 2 排除了交互作用调查。
  • 最大树深度:输入介于 2 和 1000 之间的值,以表示树的最大深度。根节点对应于深度 1。默认深度为 4。在许多应用中,从 4 到 6 的深度提供良好的模型。
终端节点允许的最小案例数
输入终端节点的最小案例数。例如,如果最小案例数为 3,拆分将创建案例数小于 3 的节点,则 Minitab 不执行拆分。
过度拟合保护
使用以下选项可最大限度地减少模型的过度拟合。
学习速率
学习速率是两个极其重要的超参数之一,您可以通过调整这些超参数来确定数据的最优模型。
默认情况下,如果训练数据中的案例数为 1000 或更少,Minitab 将使用 0.01 作为学习速率。对于超过 1000 个案例的数据集,默认学习速率为 max[0.01, 0.1 * min(1.0, N/10000)]。例如,当数据集有 9000 个响应时,则学习速率 = 0.09。
如果初始模型不能很好地预测数据,请考虑将学习速率提高或降低 5 或 10 倍,以查看能否获得更好的模型。
随机子样本选择
选择是从整个训练数据集的子样本构建分析中的每个树,还是从每个响应水平中的子样本中构建。
  • 整个数据集内:从整个训练数据集中选择随机样本。通常,比例为 .0.5 即可。如果初始模型不适合您的数据,请考虑将比例从默认值 0.5 提高到 0.70 或更高。
  • 每个响应水平内:从训练数据中的事件类别案例中抽取一个子样本,从训练数据中的非事件类别案例中抽取一个子样本。可以使用此选项来确保每个子样本中罕见类别的案例足够多。如果某个类别足够罕见,可以输入 1 以在每个子样本中包括该类别的所有案例。
子样本部分
指定为了构建分析中的每个树而需要随机选择的学习数据所占的比例。通常,比例为 .0.5 即可。如果初始模型不适合您的数据,请考虑将比例从默认值 0.5 提高到 0.70 或更高。
节点分裂的预测变量数
指定每次节点分裂要考虑的预测变量数。通常,当您考虑每个节点上的所有预测变量时,分析效果非常好。但是,当分析考虑在每个节点上使用预测变量的不同随机子集时,某些数据集的预测变量之间具有关联,这会使模型性能有所改进。对于此类情况,预测变量总数的平方根是一个典型的起始点。使用平方根并查看模型后,可以考虑使用总计百分指定更大还是更小的预测变量数。
  • 预测变量总数:选择此选项可将所有预测变量用于分裂节点。
  • 预测变量总数的平方根:选择此选项可将预测变量总数的平方根用于分裂节点。
  • 预测变量总数的百分 K;K =:选择此选项可将一定百分比的预测变量用于分裂节点。
随机数生成元基数
您可以为随机数生成元指定基数,以随机选择子样本和预测变量子集。通常,不需要更改基数。您可以更改基数以探索结果对随机选择的敏感性,或确保重复分析的随机选择相同。
权重
输入包含案例权重的列。该列所具有的行数必须与响应列所具有的行数相同。值必须大于等于 0。Minitab 会在分析中忽略包含缺失值或零的行。