发现关键预测变量 with 的示例 TreeNet^® 分类

注意

一组研究人员收集有关影响烤薄饼质量特征的因素的数据。变量包括过程设置（如混合工具）和粒度属性（如面粉蛋白）。

作为对数据的初始探索的一部分，研究人员决定通过按顺序删除不重要的预测变量来识别关键预测变量，从而使用发现关键预测变量来比较模型。研究人员希望找出对质量特征有重大影响的关键预测变量，并进一步深入了解质量特征与关键预测变量之间的关系。

打开样本数据椒盐脆饼可接受性.MWX。
选择预测分析模块 > TreeNet® 分类 > 发现关键预测变量。
从下拉列表中，选择二元响应变量。
在响应中，输入可接受的椒盐脆饼。
在响应事件中，选择 1 表示脆饼是可以接受的。
在连续预测变量中，输入面粉蛋白-散装密度。
在类别预测变量中，输入混合工具-窑法。
单击预测变量排除。
在最多排除步骤数中，输入 29。
单击每个对话框中的确定。

解释结果

对于此分析，Minitab Statistical Software 比较了 28 个模型。步骤数小于最大步骤数，因为泡沫稳定性预测变量在第一个模型中具有 0 的重要度分值，因此算法在第一步中排除了 2 个变量。模型评估表的模型列中的星号显示，具有最小负对数似然统计平均值的模型是模型 23。模型评估表之后的结果适用于模型 23。

虽然模型 23 的负对数似然统计平均值最小，但其他模型具有类似的值。团队可以单击选择备择模型，以从模型评估表中生成其他模型的结果。

在模型 23 的结果中，负对数似然平均值与树数图显示，最优树数几乎是分析中的树数。团队可以单击调整超参数以增加树数，并查看其他超参数的更改是否提高了模型的性能。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序，绘制预测变量的重要性图。最重要的预测变量是混合时间。如果顶部预测变量混合时间的重要度为 100%，则下一个重要变量窑温的贡献为 91.0%。这意味着窑温的贡献是 91.0%，与混合时间一样重要。

使用部分依赖图可以深入了解重要变量或变量对如何影响拟合响应值。拟合的响应值为 1/2 对数刻度。部分依赖图显示响应与变量之间的关系是线性、单调还是更复杂的关系。

单预测变量部分依赖图显示，混合时间、窑温和烘烤时间的中值增加了可接受脆饼的几率。干燥时间的中值可降低可接受脆饼的几率。研究人员可以选择单预测变量图为其他变量生成图。

混合时间和窑温的双预测变量部分依赖图显示了两个变量与响应之间的更复杂的关系。虽然和窑温的中等值混合时间会增加可接受的椒盐卷饼的几率，但该图显示，当两个变量都处于中等值时，会出现最佳几率。研究人员可以选择双预测变量图为其他变量对生成图。

方法

选择最优树数量的标准	最大对数似然
模型验证	70/30% 训练/测试集
学习速率	0.05
子样本选择法	完全随机
子样本部分	0.5
每个树的最大终端节点数	6
最小终端节点大小	3
为进行节点拆分而选定的预测变量数	预测变量总数 = 29
已使用的行数	5000

二值响应信息

		训练		测试
变量	类别	计数	%	计数	%
可接受的椒盐脆饼	1 （事件）	2160	61.82	943	62.62
	0	1334	38.18	563	37.38
	所有	3494	100.00	1506	100.00

通过排除不重要的预测变量选择模型

测试

模型	最优树数	负对数似然平均值	预测变量数	已排除的预测变量
1	268	0.273936	29	无
2	268	0.274186	27	泡沫稳定性, 散装密度
3	234	0.273843	26	凝胶浓度最低
4	233	0.274350	25	烤箱模式2
5	232	0.274943	24	窑法
6	273	0.275553	23	烤箱模式1
7	244	0.274811	22	混合速度
8	268	0.274258	21	烤箱模式3
9	272	0.274185	20	休息表面
10	232	0.274077	19	烘烤温度3
11	287	0.273598	18	混合工具
12	227	0.274358	17	烘烤温度1
13	276	0.275374	16	休息时间
14	272	0.276082	15	水
15	268	0.275595	14	烧焦浓度
16	268	0.277810	13	膨胀能力
17	253	0.276436	12	乳液稳定性
18	231	0.276159	11	乳液活性
19	268	0.273537	10	吸水能力
20	260	0.273455	9	吸油能力
21	299	0.272848	8	面粉蛋白
22	278	0.272629	7	泡沫容量
23*	299	0.267184	6	面粉大小
24	297	0.288621	5	烘烤温度2
25	234	0.330342	4	干燥时间
26	290	0.305993	3	明胶化温度
27	245	0.534345	2	烘烤时间
28	146	0.599837	1	窑温

模型汇总

总预测变量	6
重要预测变量	6
增长的树数	300
最优树数	299

统计量	训练	测试
负对数似然平均值	0.2418	0.2672
ROC 曲线下面积	0.9661	0.9412
95% 置信区间	(0.9608, 0.9713)	(0.9295, 0.9529)
提升	1.6176	1.5970
误分类率	0.0970	0.0963

混淆矩阵

	预测类别（训练）				预测类别（测试）
实际类别	计数	1	0	正确百分比	计数	1	0	正确百分比
1 （事件）	2160	1942	218	89.91	943	846	97	89.71
0	1334	121	1213	90.93	563	48	515	91.47
所有	3494	2063	1431	90.30	1506	894	612	90.37

统计量	训练 (%)	测试 (%)
真阳率（敏感度或功效）	89.91	89.71
假阳率（I 类错误）	9.07	8.53
假阴率（II 类错误）	10.09	10.29
真阴率（特异度）	90.93	91.47

误分类

	训练			测试
实际类别	计数	分类有误	误差百分比	计数	分类有误	误差百分比
1 （事件）	2160	218	10.09	943	97	10.29
0	1334	121	9.07	563	48	8.53
所有	3494	339	9.70	1506	145	9.63

发现关键预测变量 with 的示例 TreeNet® 分类

注意