使用 TreeNet® 分类发现关键预测变量 的示例

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

一组研究人员收集有关影响烤薄饼质量特征的因素的数据。变量包括过程设置(如 混合工具)和颗粒特性(如 面粉蛋白)。

作为数据初步探索的一部分,研究人员决定连续删除不重要的预测变量来确定关键预测变量,借此使用 发现关键预测变量 来比较模型。研究人员希望找出对质量特征有重大影响的关键预测变量,并进一步深入了解质量特征与关键预测变量之间的关系。

  1. 打开样本数据 椒盐脆饼可接受性.MTW
  2. 选择预测分析模块 > TreeNet® 分类 > 发现关键预测变量
  3. 从下拉列表中,选择二元响应变量
  4. 响应中,输入可接受的椒盐脆饼
  5. 响应事件 中,选择 1 表示脆饼是可以接受的。
  6. 连续预测变量 中,输入 面粉蛋白-散装密度
  7. 类别预测变量 中,输入 混合工具-窑法
  8. 单击 发现关键预测变量
  9. 最多排除步骤数 中,输入 29
  10. 单击每个对话框中的确定

解释结果

对于此分析,Minitab Statistical Software 比较了 28 个模型。步骤数小于最大步骤数,因为 泡沫稳定性 预测变量在第一个模型中具有 0 的重要度分值,因此算法在第一步中排除了 2 个变量。模型评估表的模型列中的星号显示,具有最小负对数似然统计平均值的模型是模型 23。模型评估表之后的结果适用于模型 23。

虽然模型 23 的负对数似然统计平均值最小,但其他模型具有类似的值。团队可以单击 选择备择模型,以从模型评估表中生成其他模型的结果。

在模型 23 的结果中,负对数似然平均值与树数图显示,最优树数几乎是分析中的树数。团队可以单击 调整超参数以确定更好的模型 以增加树数,并查看其他超参数的更改是否提高了模型的性能。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量是 混合时间。如果顶部预测变量 混合时间 的重要度为 100%,则下一个重要变量 窑温 的贡献为 93.9%。这意味着 窑温 的贡献是 93.9%,与 混合时间 一样重要。

使用部分依赖图可以深入了解重要变量或变量对如何影响预测的响应。1/2 对数尺度的响应值是来自模型的预测值。部分依赖图显示响应与变量之间的关系是线性、单调还是更复杂的关系。

单预测变量部分依赖图显示,混合时间窑温烘烤时间 的中值增加了可接受脆饼的几率。干燥时间 的中值可降低可接受脆饼的几率。研究人员可以单击 选择更多要绘制的预测变量 以生成其他变量的图。

混合时间窑温 的双预测变量部分依赖图显示了两个变量与响应之间的更复杂的关系。虽然 混合时间窑温 的中值增加了可接受脆饼的机率,但图显示,当两个变量均为中值时,则出现最佳几率。研究人员可以单击 选择更多要绘制的预测变量,以生成其他变量对的图。

方法

选择最优树数量的标准最大对数似然
模型验证70/30% 训练/测试集
学习速率0.05
子样本选择法完全随机
    子样本部分0.5
每个树的最大终端节点数6
最小终端节点大小3
为进行节点拆分而选定的预测变量数预测变量总数 = 29
已使用的行数5000

二值响应信息



训练测试
变量类别计数%计数%
可接受的椒盐脆饼1 (事件)216061.8294362.62
  0133438.1856337.38
  所有3494100.001506100.00

通过排除不重要的预测变量选择模型

测试
模型最优树数负对数似然平均值预测变量数已排除的预测变量
12680.27393629
22680.27418627泡沫稳定性, 散装密度
32340.27384326凝胶浓度最低
42330.27435025烤箱模式2
52320.27494324窑法
62730.27555323烤箱模式1
72440.27481122混合速度
82680.27425821烤箱模式3
92720.27418520休息表面
102320.27407719烘烤温度3
112870.27359818混合工具
122270.27435817烘烤温度1
132760.27537416休息时间
142720.27608215
152680.27559514烧焦浓度
162680.27781013膨胀能力
172530.27643612乳液稳定性
182310.27615911乳液活性
192680.27353710吸水能力
202600.2734559吸油能力
212990.2728488面粉蛋白
222780.2726297泡沫容量
23*2990.2671846面粉大小
242970.2886215烘烤温度2
252340.3303424干燥时间
262900.3059933明胶化温度
272450.5343452烘烤时间
281460.5998371窑温
该算法在每个步骤中删除了一个预测变量以及重要度为 0 的所有预测变量。
* 选定模型具有最小负对数似然平均值。选定模型的输出如下。

模型汇总

总预测变量6
重要预测变量6
增长的树数300
最优树数299
统计量训练测试
负对数似然平均值0.24180.2672
ROC 曲线下面积0.96610.9412
        95% 置信区间(0.9608, 0.9713)(0.9295, 0.9529)
提升1.61761.5970
误分类率0.09700.0963

混淆矩阵


预测类别(训练)预测类别(测试)
实际类别计数10正确百分比计数10正确百分比
1 (事件)2160194221889.919438469789.71
01334121121390.935634851591.47
所有34942063143190.30150689461290.37
如果行的事件概率超过 0.5,则将行分配给事件类。
     
统计量训练 (%)测试 (%)
真阳率(敏感度或功效)89.9189.71
假阳率(I 类错误)9.078.53
假阴率(II 类错误)10.0910.29
真阴率(特异度)90.9391.47

误分类


训练测试
实际类别计数分类有误误差百分比计数分类有误误差百分比
1 (事件)216021810.099439710.29
013341219.07563488.53
所有34943399.7015061459.63
如果行的事件概率超过 0.5,则将行分配给事件类。