使用 TreeNet® 分类发现关键预测变量 的示例

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

一组研究人员收集有关影响烤薄饼质量特征的因素的数据。变量包括过程设置(如 混合工具)和颗粒特性(如 面粉蛋白)。

作为数据初步探索的一部分,研究人员决定连续删除不重要的预测变量来确定关键预测变量,借此使用 发现关键预测变量 来比较模型。研究人员希望找出对质量特征有重大影响的关键预测变量,并进一步深入了解质量特征与关键预测变量之间的关系。

  1. 打开样本数据 椒盐脆饼可接受性.MTW
  2. 选择预测分析模块 > TreeNet® 分类 > 发现关键预测变量
  3. 从下拉列表中,选择二元响应变量
  4. 响应中,输入可接受的椒盐脆饼
  5. 响应事件 中,选择 1 表示脆饼是可以接受的。
  6. 连续预测变量 中,输入 面粉蛋白-散装密度
  7. 类别预测变量 中,输入 混合工具-窑法
  8. 单击 发现关键预测变量
  9. 最多排除步骤数 中,输入 29
  10. 单击每个对话框中的确定

解释结果

对于此分析,Minitab Statistical Software 比较了 28 个模型。步骤数小于最大步骤数,因为 泡沫稳定性 预测变量在第一个模型中具有 0 的重要度分值,因此算法在第一步中排除了 2 个变量。模型评估表的模型列中的星号显示,具有最小负对数似然统计平均值的模型是模型 23。模型评估表之后的结果适用于模型 23。

虽然模型 23 的负对数似然统计平均值最小,但其他模型具有类似的值。团队可以单击 选择备择模型,以从模型评估表中生成其他模型的结果。

在模型 23 的结果中,负对数似然平均值与树数图显示,最优树数几乎是分析中的树数。团队可以单击 调整超参数以确定更好的模型 以增加树数,并查看其他超参数的更改是否提高了模型的性能。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量是 混合时间。如果顶部预测变量 混合时间 的重要度为 100%,则下一个重要变量 窑温 的贡献为 93.9%。这意味着 窑温 的贡献是 93.9%,与 混合时间 一样重要。

使用部分依赖图可以深入了解重要变量或变量对如何影响预测的响应。1/2 对数尺度的响应值是来自模型的预测值。部分依赖图显示响应与变量之间的关系是线性、单调还是更复杂的关系。

单预测变量部分依赖图显示,混合时间窑温烘烤时间 的中值增加了可接受脆饼的几率。干燥时间 的中值可降低可接受脆饼的几率。研究人员可以单击 选择更多要绘制的预测变量 以生成其他变量的图。

混合时间窑温 的双预测变量部分依赖图显示了两个变量与响应之间的更复杂的关系。虽然 混合时间窑温 的中值增加了可接受脆饼的机率,但图显示,当两个变量均为中值时,则出现最佳几率。研究人员可以单击 选择更多要绘制的预测变量,以生成其他变量对的图。

TreeNet® 分类: 可接受的椒盐脆饼 vs 面粉蛋白, 水, 混合时间, 休息时间, 烘烤时间, 干燥时间, 烘烤温度1, 烘烤温度2, ...

方法 选择最优树数量的标准 最大对数似然 模型验证 70/30% 训练/测试集 学习速率 0.05 子样本选择法 完全随机 子样本部分 0.5 每个树的最大终端节点数 6 最小终端节点大小 3 为进行节点拆分而选定的预测变量数 预测变量总数 = 29 已使用的行数 5000
二值响应信息 训练 测试 变量 类别 计数 % 计数 % 可接受的椒盐脆饼 1 (事件) 2160 61.82 943 62.62 0 1334 38.18 563 37.38 所有 3494 100.00 1506 100.00

单变量部分依赖图

选择更多要绘制的预测变量...

双变量部分依赖图

选择更多要绘制的预测变量...

TreeNet® 分类 - 发现关键预测变量: 可接受的椒盐脆饼 与 面粉蛋白, 水, 混合时间, 休息时间, 烘烤时间, 干燥时间, 烘烤温度1, ...

预测变量排除

通过排除不重要的预测变量选择模型 测试 模型 最优树数 负对数似然平均值 预测变量数 已排除的预测变量 1 268 0.273936 29 无 2 268 0.274186 27 泡沫稳定性, 散装密度 3 234 0.273843 26 凝胶浓度最低 4 233 0.274350 25 烤箱模式2 5 232 0.274943 24 窑法 6 273 0.275553 23 烤箱模式1 7 244 0.274811 22 混合速度 8 268 0.274258 21 烤箱模式3 9 272 0.274185 20 休息表面 10 232 0.274077 19 烘烤温度3 11 287 0.273598 18 混合工具 12 227 0.274358 17 烘烤温度1 13 276 0.275374 16 休息时间 14 272 0.276082 15 水 15 268 0.275595 14 烧焦浓度 16 268 0.277810 13 膨胀能力 17 253 0.276436 12 乳液稳定性 18 231 0.276159 11 乳液活性 19 268 0.273537 10 吸水能力 20 260 0.273455 9 吸油能力 21 299 0.272848 8 面粉蛋白 22 278 0.272629 7 泡沫容量 23* 299 0.267184 6 面粉大小 24 297 0.288621 5 烘烤温度2 25 234 0.330342 4 干燥时间 26 290 0.305993 3 明胶化温度 27 245 0.534345 2 烘烤时间 28 146 0.599837 1 窑温 该算法在每个步骤中删除了一个预测变量以及重要度为 0 的所有预测变量。 * 选定模型具有最小负对数似然平均值。选定模型的输出如下。

TreeNet® 分类: 可接受的椒盐脆饼 vs 混合时间, 烘烤时间, 干燥时间, 烘烤温度2, 窑温, 明胶化温度

模型汇总 总预测变量 6 重要预测变量 6 增长的树数 300 最优树数 299 统计量 训练 测试 负对数似然平均值 0.2418 0.2672 ROC 曲线下面积 0.9661 0.9412 95% 置信区间 (0.9608, 0.9713) (0.9295, 0.9529) 提升 1.6176 1.5970 误分类率 0.0970 0.0963

TreeNet® 分类: 可接受的椒盐脆饼 vs 混合时间, 烘烤时间, 干燥时间, 烘烤温度2, 窑温, 明胶化温度

混淆矩阵 预测类别(训练) 预测类别(测试) 实际类别 计数 1 0 正确百分比 计数 1 0 正确百分比 1 (事件) 2160 1942 218 89.91 943 846 97 89.71 0 1334 121 1213 90.93 563 48 515 91.47 所有 3494 2063 1431 90.30 1506 894 612 90.37 如果行的事件概率超过 0.5,则将行分配给事件类。
统计量 训练 (%) 测试 (%) 真阳率(敏感度或功效) 89.91 89.71 假阳率(I 类错误) 9.07 8.53 假阴率(II 类错误) 10.09 10.29 真阴率(特异度) 90.93 91.47
误分类 训练 测试 实际类别 计数 分类有误 误差百分比 计数 分类有误 误差百分比 1 (事件) 2160 218 10.09 943 97 10.29 0 1334 121 9.07 563 48 8.53 所有 3494 339 9.70 1506 145 9.63 如果行的事件概率超过 0.5,则将行分配给事件类。