发现最佳模型 (二值响应)示例

注意

关于本主题

搜索最佳型号类型
选择备择模型

搜索最佳型号类型

一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。

研究人员希望找到一个能够做出最准确预测的模型。研究人员使用发现最佳模型 (二值响应) 来比较 4 种模型的预测性能：二元逻辑回归、TreeNet^®、Random Forests^® 和 CART^®。研究人员计划进一步探索具有最佳预测性能的模型类型。

使用以下链接查看不同数据集的每种模型类型的示例：

打开样本数据心脏病二元最佳模型.MWX。
选择预测分析模块 > 自动化机器学习 > 发现最佳模型 (二值响应)。
在响应中，输入 '心脏病'。
在连续预测变量中，输入年龄、 '血压、胆固醇最大心率' 、、 ' 旧峰值。
在类别预测变量中，输入性别、、 ' 疼痛类型、 '血糖'、 '静息心电图'、运动绞痛斜率血管和。地中海贫血
单击确定。

解释结果

型号选择表比较了不同类型模型的性能。Random Forests^® 模型具有平均 –对数似然的最小值。以下结果适用于最佳Random Forests^® 模型。

误分类率与树数图显示生成的树数的整个曲线。误分类率大约为 0.16。

模型汇总表显示平均负对数似然约为 0.39。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序，绘制预测变量的重要性图。最重要的预测变量为 Thal。如果顶部预测变量 Thal 的贡献为 100%，则下一个重要变量“主要血管”的贡献为 98.9%。这表示在此分类模型中，“主要血管”的重要性是 Thal 重要性的 98.9%。

混淆矩阵显示模型正确区分类的程度。在此示例中，正确预测事件的概率约为 87%。正确预测非事件的概率约为 81%。

误分类率有助于指示模型是否能准确预测新观测值。对于事件预测，OOB 误分类误差约为 13%。对于非事件的预测，误分类误差约为 19%。总体而言，检验数据的误分类误差约为 16%。

对于袋外数据，Random Forests^® 模型的 ROC 曲线下面积约为 0.90。

发现最佳模型（二值响应）: 心脏病与年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, 静息心电图, 运动绞痛, 斜率, 血管, 地中海贫血

方法

拟合具有线性项和二阶项的逐步 Logistic 回归模型。
拟合 6 TreeNet® 分类模型。
使用与 303 的训练数据大小相同的 Bootstrap 样本数量拟合 3 Random Forests® 分类模型。
拟合最优 CART® 分类模型。
从 5 折叠交叉评估中选择具有最大对数似然的模型。
总行数: 303
用于 Logistic 回归模型的行: 303
用于基于树的模型的行: 303

二值响应信息

变量	类别	计数	%
心脏病	1 （事件）	165	54.46
	0	138	45.54
	所有	303	100.00

类型内的最佳模型	负对数似然平均值	ROC 曲线下面积	误分类率
Random Forests®*	0.3904	0.9048	0.1584
TreeNet®	0.3907	0.9032	0.1520
Logistic 回归	0.4671	0.9142	0.1518
CART®	1.8072	0.7991	0.2080

最佳 Random Forests® 模型的超参数

Bootstrap 样本数	300
样本数量	与 303 的训练数据大小相同
为进行节点拆分而选定的预测变量数	预测变量总数的平方根 = 3
最小内部节点大小	8

模型汇总

总预测变量	13
重要预测变量	13

统计量	OOB
负对数似然平均值	0.3904
ROC 曲线下面积	0.9048
95% 置信区间	(0.8706, 0.9389)
提升	1.7758
误分类率	0.1584

混淆矩阵

	预测类别 (OOB)
实际类别	计数	1	0	正确百分比
1 （事件）	165	143	22	86.67
0	138	26	112	81.16
所有	303	169	134	84.16

统计量	OOB (%)
真阳率（敏感度或功效）	86.67
假阳率（I 类错误）	18.84
假阴率（II 类错误）	13.33
真阴率（特异度）	81.16

误分类

	OOB
实际类别	计数	分类有误	误差百分比
1 （事件）	165	22	13.33
0	138	26	18.84
所有	303	48	15.84

选择备择模型

研究人员可以通过搜索最佳模型来查看其他模型的结果。对于 TreeNet^® 模型，您可以从搜索过程中的模型中进行选择，也可以为其他模型指定超参数。

选择选择备择模型。
在模型类型中，选择 TreeNet®。
在选择现有模型中，选择第三个模型，该模型具有最小平均值 – 对数可能性的最佳值。
单击显示结果。

解释结果

此分析生长 300 棵树，最佳树数为 46。该模型使用 0.1 的学习率和 0.5 的子样本分数。每个树的最大终端节点数为 6。

负对数似然性平均值与树数图显示生成的树数的整个曲线。当树数量为 46 时，检验数据的最佳值为 0.3907。

模型汇总

总预测变量	13
重要预测变量	13
增长的树数	300
最优树数	46

统计量	训练	测试
负对数似然平均值	0.2088	0.3907
ROC 曲线下面积	0.9842	0.9032
95% 置信区间	(0.9721, 0.9964)	(0.8683, 0.9381)
提升	1.8364	1.7744
误分类率	0.0726	0.1520

当树数为 46 时，模型摘要表指示训练数据的平均负对数似然约为 0.21，测试数据的平均负对数似然约为 0.39。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序，绘制预测变量的重要性图。最重要的预测变量为“胸痛类型”。如果前一个预测变量疼痛类型的贡献为 100%，则下一个重要变量 Thal 的贡献为 95.8%。这意味着在此分类模型中，地中海贫血的重要性是疼痛类型的 95.8%。

混淆矩阵

		预测类别（训练）			预测类别（测试）
实际类别	计数	1	0	正确百分比	1	0	正确百分比
1 （事件）	165	156	9	94.55	147	18	89.09
0	138	13	125	90.58	28	110	79.71
所有	303	169	134	92.74	175	128	84.82

统计量	训练 (%)	测试 (%)
真阳率（敏感度或功效）	94.55	89.09
假阳率（I 类错误）	9.42	20.29
假阴率（II 类错误）	5.45	10.91
真阴率（特异度）	90.58	79.71

混淆矩阵显示模型正确区分类的程度。在此示例中，正确预测事件的概率约为 89%。正确预测非事件的概率约为 80%。

误分类

		训练		测试
实际类别	计数	分类有误	误差百分比	分类有误	误差百分比
1 （事件）	165	9	5.45	18	10.91
0	138	13	9.42	28	20.29
所有	303	22	7.26	46	15.18

误分类率有助于指示模型是否将准确预测新观测值。对于事件的预测，检验误分类误差约为 11%。对于非事件的预测，误分类误差约为 20%。总体而言，检验数据的误分类误差约为 15%。

当树数为 46 时，ROC 曲线下面积对于训练数据约为 0.98，对于检验数据约为 0.90。

在此示例中，收益图显示参考线上方骤增，然后趋于平直。在这种情况下，大约 60% 的数据占据了大约 90% 的真阳性。这种差异是使用该模型额外获得的增益。

在此示例中，提升图显示参考线上方的大幅增加，在总数的大约 50% 后开始下降得更快。

使用部分依赖图可以深入了解重要变量或变量对如何影响拟合响应值。拟合的响应值为 1/2 对数刻度。部分依赖图显示响应与变量之间的关系是线性、单调还是更复杂的关系。
例如，在胸痛类型的部分依赖图中，1/2 对数的几率最高，值为 3。选择单预测变量图或双预测变量图为其他变量生成图