此命令适用于预测分析模块。单击此处了解更多关于如何激活模块的信息。
一组研究人员收集有关影响烤薄饼质量特征的因素的数据。变量包括过程设置(如 混合工具)和粒度属性(如 面粉蛋白)。
作为对数据的初始探索的一部分,研究人员决定通过按顺序删除不重要的预测变量来识别关键预测变量,从而使用 发现关键预测变量 来比较模型。研究人员希望找出对质量特征有重大影响的关键预测变量,并进一步深入了解质量特征与关键预测变量之间的关系。
对于此分析,Minitab Statistical Software 比较了 28 个模型。步骤数小于最大步骤数,因为 泡沫稳定性 预测变量在第一个模型中具有 0 的重要度分值,因此算法在第一步中排除了 2 个变量。模型评估表的模型列中的星号显示,具有最小负对数似然统计平均值的模型是模型 23。模型评估表之后的结果适用于模型 23。
虽然模型 23 的负对数似然统计平均值最小,但其他模型具有类似的值。团队可以单击 选择备择模型,以从模型评估表中生成其他模型的结果。
在模型 23 的结果中,负对数似然平均值与树数图显示,最优树数几乎是分析中的树数。团队可以单击 调整超参数 以增加树数,并查看其他超参数的更改是否提高了模型的性能。
相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量是 混合时间。如果顶部预测变量 混合时间 的重要度为 100%,则下一个重要变量 窑温 的贡献为 93.9%。这意味着 窑温 的贡献是 93.9%,与 混合时间 一样重要。
使用部分依赖图可以深入了解重要变量或变量对如何影响拟合响应值。拟合的响应值为 1/2 对数刻度。部分依赖图显示响应与变量之间的关系是线性、单调还是更复杂的关系。
单预测变量部分依赖图显示,混合时间、窑温 和 烘烤时间 的中值增加了可接受脆饼的几率。干燥时间 的中值可降低可接受脆饼的几率。研究人员可以选择 为其他变量生成图。
混合时间 和 窑温 的双预测变量部分依赖图显示了两个变量与响应之间的更复杂的关系。虽然 和 窑温 的中等值 混合时间 会增加可接受的椒盐卷饼的几率,但该图显示,当两个变量都处于中等值时,会出现最佳几率。研究人员可以选择 为其他变量对生成图。
选择最优树数量的标准 | 最大对数似然 |
---|---|
模型验证 | 70/30% 训练/测试集 |
学习速率 | 0.05 |
子样本选择法 | 完全随机 |
子样本部分 | 0.5 |
每个树的最大终端节点数 | 6 |
最小终端节点大小 | 3 |
为进行节点拆分而选定的预测变量数 | 预测变量总数 = 29 |
已使用的行数 | 5000 |
训练 | 测试 | ||||
---|---|---|---|---|---|
变量 | 类别 | 计数 | % | 计数 | % |
可接受的椒盐脆饼 | 1 (事件) | 2160 | 61.82 | 943 | 62.62 |
0 | 1334 | 38.18 | 563 | 37.38 | |
所有 | 3494 | 100.00 | 1506 | 100.00 |
模型 | 最优树数 | 负对数似然平均值 | 预测变量数 | 已排除的预测变量 |
---|---|---|---|---|
1 | 268 | 0.273936 | 29 | 无 |
2 | 268 | 0.274186 | 27 | 泡沫稳定性, 散装密度 |
3 | 234 | 0.273843 | 26 | 凝胶浓度最低 |
4 | 233 | 0.274350 | 25 | 烤箱模式2 |
5 | 232 | 0.274943 | 24 | 窑法 |
6 | 273 | 0.275553 | 23 | 烤箱模式1 |
7 | 244 | 0.274811 | 22 | 混合速度 |
8 | 268 | 0.274258 | 21 | 烤箱模式3 |
9 | 272 | 0.274185 | 20 | 休息表面 |
10 | 232 | 0.274077 | 19 | 烘烤温度3 |
11 | 287 | 0.273598 | 18 | 混合工具 |
12 | 227 | 0.274358 | 17 | 烘烤温度1 |
13 | 276 | 0.275374 | 16 | 休息时间 |
14 | 272 | 0.276082 | 15 | 水 |
15 | 268 | 0.275595 | 14 | 烧焦浓度 |
16 | 268 | 0.277810 | 13 | 膨胀能力 |
17 | 253 | 0.276436 | 12 | 乳液稳定性 |
18 | 231 | 0.276159 | 11 | 乳液活性 |
19 | 268 | 0.273537 | 10 | 吸水能力 |
20 | 260 | 0.273455 | 9 | 吸油能力 |
21 | 299 | 0.272848 | 8 | 面粉蛋白 |
22 | 278 | 0.272629 | 7 | 泡沫容量 |
23* | 299 | 0.267184 | 6 | 面粉大小 |
24 | 297 | 0.288621 | 5 | 烘烤温度2 |
25 | 234 | 0.330342 | 4 | 干燥时间 |
26 | 290 | 0.305993 | 3 | 明胶化温度 |
27 | 245 | 0.534345 | 2 | 烘烤时间 |
28 | 146 | 0.599837 | 1 | 窑温 |
总预测变量 | 6 |
---|---|
重要预测变量 | 6 |
增长的树数 | 300 |
最优树数 | 299 |
统计量 | 训练 | 测试 |
---|---|---|
负对数似然平均值 | 0.2418 | 0.2672 |
ROC 曲线下面积 | 0.9661 | 0.9412 |
95% 置信区间 | (0.9608, 0.9713) | (0.9295, 0.9529) |
提升 | 1.6176 | 1.5970 |
误分类率 | 0.0970 | 0.0963 |
预测类别(训练) | 预测类别(测试) | |||||||
---|---|---|---|---|---|---|---|---|
实际类别 | 计数 | 1 | 0 | 正确百分比 | 计数 | 1 | 0 | 正确百分比 |
1 (事件) | 2160 | 1942 | 218 | 89.91 | 943 | 846 | 97 | 89.71 |
0 | 1334 | 121 | 1213 | 90.93 | 563 | 48 | 515 | 91.47 |
所有 | 3494 | 2063 | 1431 | 90.30 | 1506 | 894 | 612 | 90.37 |
统计量 | 训练 (%) | 测试 (%) |
---|---|---|
真阳率(敏感度或功效) | 89.91 | 89.71 |
假阳率(I 类错误) | 9.07 | 8.53 |
假阴率(II 类错误) | 10.09 | 10.29 |
真阴率(特异度) | 90.93 | 91.47 |
训练 | 测试 | |||||
---|---|---|---|---|---|---|
实际类别 | 计数 | 分类有误 | 误差百分比 | 计数 | 分类有误 | 误差百分比 |
1 (事件) | 2160 | 218 | 10.09 | 943 | 97 | 10.29 |
0 | 1334 | 121 | 9.07 | 563 | 48 | 8.53 |
所有 | 3494 | 339 | 9.70 | 1506 | 145 | 9.63 |