发现最佳模型 (二值响应)示例

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

搜索最佳型号类型

一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。

研究人员希望找到一个能够做出最准确预测的模型。研究人员使用 发现最佳模型 (二值响应) 来比较 4 种模型的预测性能:二元逻辑回归、TreeNet®、Random Forests® 和 CART®。研究人员计划进一步探索具有最佳预测性能的模型类型。

  1. 打开样本数据 心脏病二元最佳模型.MTW
  2. 选择 预测分析模块 > 自动化机器学习 > 发现最佳模型 (二值响应)
  3. 响应中,输入 '心脏病'。
  4. 连续预测变量中,输入 年龄、 '血压胆固醇最大心率' 、 、 ' 旧峰值
  5. 类别预测变量中,输入 性别、 、 ' 疼痛类型、 '血糖'、 '静息心电图'、运动绞痛 斜率血管和 。 地中海贫血
  6. 单击 确定

解释结果

型号选择表比较了不同类型模型的性能。Random Forests® 模型具有平均 –对数似然的最小值。以下结果适用于最佳Random Forests® 模型。

误分类率与树数图显示生成的树数的整个曲线。误分类率大约为 0.16。

模型汇总表显示平均负对数似然约为 0.39。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量为 Thal。如果顶部预测变量 Thal 的贡献为 100%,则下一个重要变量“主要血管”的贡献为 98.9%。这表示在此分类模型中,“主要血管”的重要性是 Thal 重要性的 98.9%。

混淆矩阵显示模型正确区分类的程度。在此示例中,正确预测事件的概率约为 87%。正确预测非事件的概率约为 81%。

误分类率有助于指示模型是否能准确预测新观测值。对于事件预测,OOB 误分类误差约为 13%。对于非事件的预测,误分类误差约为 19%。总体而言,检验数据的误分类误差约为 16%。

对于袋外数据,Random Forests® 模型的 ROC 曲线下面积约为 0.90。

发现最佳模型(二值响应): 心脏病 与 年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, 静息心电图, 运动绞痛, 斜率, 血管, 地中海贫血

方法

拟合具有线性项和二阶项的逐步 Logistic 回归模型。
拟合 6 TreeNet® 分类模型。
使用与 303 的训练数据大小相同的 Bootstrap 样本数量拟合 3 Random Forests® 分类模型。
拟合最优 CART® 分类模型。
从 5 折叠交叉评估中选择具有最大对数似然的模型。
总行数: 303
用于 Logistic 回归模型的行: 303
用于基于树的模型的行: 303

二值响应信息

变量类别计数%
心脏病1 (事件)16554.46
  013845.54
  所有303100.00
类型内的最佳模型负对数似然平均值ROC 曲线下面积误分类率
Random Forests®*0.39040.90480.1584
TreeNet®0.39070.90320.1520
Logistic 回归0.46710.91420.1518
CART®1.80720.79910.2080
* 跨所有模型类型(具有最小负对数似然平均值)的最佳模型。最佳模型的输出如下所示。

最佳 Random Forests® 模型的超参数

Bootstrap 样本数300
    样本数量与 303 的训练数据大小相同
为进行节点拆分而选定的预测变量数预测变量总数的平方根 = 3
最小内部节点大小8

模型汇总

总预测变量13
重要预测变量13
统计量OOB
负对数似然平均值0.3904
ROC 曲线下面积0.9048
        95% 置信区间(0.8706, 0.9389)
提升1.7758
误分类率0.1584

混淆矩阵


预测类别 (OOB)
实际类别计数10正确百分比
1 (事件)1651432286.67
01382611281.16
所有30316913484.16
统计量OOB (%)
真阳率(敏感度或功效)86.67
假阳率(I 类错误)18.84
假阴率(II 类错误)13.33
真阴率(特异度)81.16

误分类


OOB
实际类别计数分类有误误差百分比
1 (事件)1652213.33
01382618.84
所有3034815.84

选择备择模型

研究人员可以通过搜索最佳模型来查看其他模型的结果。对于 TreeNet® 模型,您可以从搜索过程中的模型中进行选择,也可以为其他模型指定超参数。

  1. 选择 选择备择模型
  2. 模型类型中,选择 TreeNet®
  3. 选择现有模型中,选择第三个模型,该模型具有最小平均值 – 对数可能性的最佳值。
  4. 单击 显示结果

解释结果

此分析生长 300 棵树,最佳树数为 46。该模型使用 0.1 的学习率和 0.5 的子样本分数。每个树的最大终端节点数为 6。

负对数似然性平均值与树数图显示生成的树数的整个曲线。当树数量为 46 时,检验数据的最佳值为 0.3907。

模型汇总

总预测变量13
重要预测变量13
增长的树数300
最优树数46
统计量训练测试
负对数似然平均值0.20880.3907
ROC 曲线下面积0.98420.9032
        95% 置信区间(0.9721, 0.9964)(0.8683, 0.9381)
提升1.83641.7744
误分类率0.07260.1520

当树数为 46 时,模型摘要表指示训练数据的平均负对数似然约为 0.21,测试数据的平均负对数似然约为 0.39。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量为“胸痛类型”。如果前一个预测变量疼痛类型的贡献为 100%,则下一个重要变量 Thal 的贡献为 95.8%。这意味着在此分类模型中,地中海贫血的重要性是疼痛类型的 95.8%。

混淆矩阵



预测类别(训练)预测类别(测试)
实际类别计数10正确百分比10正确百分比
1 (事件)165156994.551471889.09
01381312590.582811079.71
所有30316913492.7417512884.82
如果行的事件概率超过 0.5,则将行分配给事件类。
     
统计量训练 (%)测试 (%)
真阳率(敏感度或功效)94.5589.09
假阳率(I 类错误)9.4220.29
假阴率(II 类错误)5.4510.91
真阴率(特异度)90.5879.71

混淆矩阵显示模型正确区分类的程度。在此示例中,正确预测事件的概率约为 89%。正确预测非事件的概率约为 80%。

误分类



训练测试
实际类别计数分类有误误差百分比分类有误误差百分比
1 (事件)16595.451810.91
0138139.422820.29
所有303227.264615.18
如果行的事件概率超过 0.5,则将行分配给事件类。

误分类率有助于指示模型是否将准确预测新观测值。对于事件的预测,检验误分类误差约为 11%。对于非事件的预测,误分类误差约为 20%。总体而言,检验数据的误分类误差约为 15%。

当树数为 46 时,ROC 曲线下面积对于训练数据约为 0.98,对于检验数据约为 0.90。

在此示例中,收益图显示参考线上方骤增,然后趋于平直。在这种情况下,大约 60% 的数据占据了大约 90% 的真阳性。这种差异是使用该模型额外获得的增益。

在此示例中,提升图显示参考线上方的大幅增加,在总数的大约 50% 后开始下降得更快。

使用部分依赖图可以深入了解重要变量或变量对如何影响拟合响应值。拟合的响应值为 1/2 对数刻度。部分依赖图显示响应与变量之间的关系是线性、单调还是更复杂的关系。

例如,在胸痛类型的部分依赖图中,1/2 对数的几率最高,值为 3。选择 单预测变量图双预测变量图 为其他变量生成图