拟合模型 with 的示例 TreeNet^® 分类

注意

一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。

在初步探索 CART^® 分类以确定重要预测因子后，研究人员同时使用两者 TreeNet^® 分类，并从 Random Forests^® 分类同一数据集创建更深入的模型。研究人员根据结果比较模型汇总表和 ROC 图，以评估哪个模型可提供更好的预测结果。有关其他分析的结果，请转到CART® 分类示例和Weibull 分布的 Random Forests® 分类。

打开样本数据心脏病二进制.MWX。
选择预测分析模块 > TreeNet® 分类 > 拟合模型。
从下拉列表中，选择二元响应变量。
在响应中输入 ‘’心脏病’'。
在响应事件中，选择是的以指示已将患者标识为患有心脏病。
在连续预测变量中 输入 年龄，血压胆固醇 '最大心率'，和 '旧峰值'。
在类别预测变量中 输入 性别， '疼痛类型' ，血糖''静息心电图， '' 斜率血管运动绞痛，， ''， 地中海贫血和。
单击确定。

解释结果

对于此分析，Minitab 生成 300 个树，最优树数为 298。由于最优树数接近模型生成的最大树数，研究人员使用更多树重复运行分析。

模型汇总

总预测变量	13
重要预测变量	13
增长的树数	300
最优树数	298

统计量	训练	交叉验证
负对数似然平均值	0.2556	0.3881
ROC 曲线下面积	0.9796	0.9089
95% 置信区间	(0.9664, 0.9929)	(0.8759, 0.9419)
提升	2.1799	2.1087
误分类率	0.0891	0.1617

500 个树的示例

在结果中选择调整超参数。
在树数中，输入 500。
单击显示结果。

解释结果

对于此分析，有 500 个生成的树，最优树数是 351。最佳模型使用 0.01 的学习速率，使用 0.5 的子样本部分，并使用 6 作为最大终端节点数。

方法

选择最优树数量的标准	最大对数似然
模型验证	5 折叠交叉验证
学习速率	0.01
子样本选择法	完全随机
子样本部分	0.5
每个树的最大终端节点数	6
最小终端节点大小	3
为进行节点拆分而选定的预测变量数	预测变量总数 = 13
已使用的行数	303

二值响应信息

变量	类别	计数	%
心脏病	是的（事件）	139	45.87
	不	164	54.13
	所有	303	100.00

具有超参数调整的 TreeNet® 分类: 心脏病与年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, 静息心电图, 运动绞痛, 斜率, 血管, 地中海贫血

方法

选择最优树数量的标准	最大对数似然
模型验证	5 折叠交叉验证
学习速率	0.001, 0.01, 0.1
子样本部分	0.5, 0.7
每个树的最大终端节点数	6
最小终端节点大小	3
为进行节点拆分而选定的预测变量数	预测变量总数 = 13
已使用的行数	303

二值响应信息

变量	类别	计数	%
心脏病	是的（事件）	139	45.87
	不	164	54.13
	所有	303	100.00

超参数优化

交叉验证

模型	最优树数	负对数似然平均值	ROC 曲线下面积	误分类率	学习速率	子样本部分	最大终端节点数
1	500	0.542902	0.902956	0.171749	0.001	0.5	6
2*	351	0.386536	0.908920	0.175027	0.010	0.5	6
3	33	0.396555	0.900782	0.161694	0.100	0.5	6
4	500	0.543292	0.894178	0.178142	0.001	0.7	6
5	374	0.389607	0.906620	0.165082	0.010	0.7	6
6	39	0.393382	0.901399	0.174973	0.100	0.7	6

模型汇总

总预测变量	13
重要预测变量	13
增长的树数	500
最优树数	351

统计量	训练	交叉验证
负对数似然平均值	0.2341	0.3865
ROC 曲线下面积	0.9825	0.9089
95% 置信区间	(0.9706, 0.9945)	(0.8757, 0.9421)
提升	2.1799	2.1087
误分类率	0.0759	0.1750

模型汇总

总预测变量	13
重要预测变量	13

统计量	OOB
负对数似然平均值	0.4004
ROC 曲线下面积	0.9028
95% 置信区间	(0.8693, 0.9363)
提升	2.1079
误分类率	0.1848

模型汇总表显示，当树数为351棵时，训练数据的平均负对数似然约为0.23，交叉验证结果约为0.39。这些统计量表明模型与 Minitab Random Forests® 创建的模型相似。此外，误分类率也相似。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序，绘制预测变量的重要性图。最重要的预测变量为 Thal。如果顶部预测变量 Thal 的贡献为 100%，则下一个重要变量“主要血管”的贡献为 97.8%。这表示在此分类模型中，“主要血管”的重要性是 Thal 重要性的 97.8%。

混淆矩阵

		预测类别（训练）			预测类别 (交叉验证)
实际类别	计数	是的	不	正确百分比	是的	不	正确百分比
是的（事件）	139	124	15	89.21	110	29	79.14
不	164	8	156	95.12	24	140	85.37
所有	303	132	171	92.41	134	169	82.51