一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。
使用CART®
分类进行初步探索以确定重要预测变量后,研究人员使用TreeNet®
分类和Random
Forests® 分类从同一数据集创建更密集的模型。研究人员根据结果比较模型汇总表和 ROC 图,以评估哪个模型可提供更好的预测结果。有关其他分析的结果,请转到CART® 分类示例和Random Forests® 分类示例。
- 打开样本数据 心脏病二进制.MTW。
- 选择。
- 从下拉列表中,选择二元响应变量。
- 在 响应中,输入心脏病。
- 在响应事件中,选择是的以指示已将患者标识为患有心脏病。
- 在连续预测变量中,输入年龄、血压、胆固醇、最大心率和旧峰值。
- 在类别预测变量中,输入性别、疼痛类型、血糖、静息心电图、运动绞痛、斜率、血管和地中海贫血。
- 单击确定。
解释结果
对于此分析,Minitab 生成 300 个树,最优树数为 298。由于最优树数接近模型生成的最大树数,研究人员使用更多树重复运行分析。
模型汇总
总预测变量 | 13 |
---|
重要预测变量 | 13 |
---|
增长的树数 | 300 |
---|
最优树数 | 298 |
---|
负对数似然平均值 | 0.2556 | 0.3881 |
---|
ROC 曲线下面积 | 0.9796 | 0.9089 |
---|
95% 置信区间 | (0.9664, 0.9929) | (0.8759, 0.9419) |
---|
提升 | 2.1799 | 2.1087 |
---|
误分类率 | 0.0891 | 0.1617 |
---|
使用 500 个树的示例
- 在模型汇总表后,单击 调整超参数以确定更好的模型。
- 在 树数 中,输入 500。
- 单击显示结果。
解释结果
对于此分析,有 500 个生成的树,最优树数是 351。最佳模型使用 0.01 的学习速率,使用 0.5 的子样本部分,并使用 6 作为最大终端节点数。
方法
选择最优树数量的标准 | 最大对数似然 |
---|
模型验证 | 5 折叠交叉验证 |
---|
学习速率 | 0.01 |
---|
子样本选择法 | 完全随机 |
---|
子样本部分 | 0.5 |
---|
每个树的最大终端节点数 | 6 |
---|
最小终端节点大小 | 3 |
---|
为进行节点拆分而选定的预测变量数 | 预测变量总数 = 13 |
---|
已使用的行数 | 303 |
---|
二值响应信息
心脏病 | 是的 (事件) | 139 | 45.87 |
---|
| 不 | 164 | 54.13 |
---|
| 所有 | 303 | 100.00 |
---|
具有超参数调整的 TreeNet® 分类: 心脏病 与 年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, 静息心电图, 运动绞痛, 斜率, 血管, 地中海贫血
方法
选择最优树数量的标准 | 最大对数似然 |
---|
模型验证 | 5 折叠交叉验证 |
---|
学习速率 | 0.001, 0.01, 0.1 |
---|
子样本部分 | 0.5, 0.7 |
---|
每个树的最大终端节点数 | 6 |
---|
最小终端节点大小 | 3 |
---|
为进行节点拆分而选定的预测变量数 | 预测变量总数 = 13 |
---|
已使用的行数 | 303 |
---|
二值响应信息
心脏病 | 是的 (事件) | 139 | 45.87 |
---|
| 不 | 164 | 54.13 |
---|
| 所有 | 303 | 100.00 |
---|
超参数优化
测试
1 | 500 | 0.542902 | 0.902956 | 0.171749 | 0.001 | 0.5 | 6 |
---|
2* | 351 | 0.386536 | 0.908920 | 0.175027 | 0.010 | 0.5 | 6 |
---|
3 | 33 | 0.396555 | 0.900782 | 0.161694 | 0.100 | 0.5 | 6 |
---|
4 | 500 | 0.543292 | 0.894178 | 0.178142 | 0.001 | 0.7 | 6 |
---|
5 | 374 | 0.389607 | 0.906620 | 0.165082 | 0.010 | 0.7 | 6 |
---|
6 | 39 | 0.393382 | 0.901399 | 0.174973 | 0.100 | 0.7 | 6 |
---|
模型汇总
总预测变量 | 13 |
---|
重要预测变量 | 13 |
---|
增长的树数 | 500 |
---|
最优树数 | 351 |
---|
负对数似然平均值 | 0.2341 | 0.3865 |
---|
ROC 曲线下面积 | 0.9825 | 0.9089 |
---|
95% 置信区间 | (0.9706, 0.9945) | (0.8757, 0.9421) |
---|
提升 | 2.1799 | 2.1087 |
---|
误分类率 | 0.0759 | 0.1750 |
---|
模型汇总
负对数似然平均值 | 0.4004 |
---|
ROC 曲线下面积 | 0.9028 |
---|
95% 置信区间 | (0.8693, 0.9363) |
---|
提升 | 2.1079 |
---|
误分类率 | 0.1848 |
---|
模型汇总表显示,当树数为 351 时,负对数似然性平均值对于训练数据约为 0.23,对于检验数据约为 0.39。这些统计量表明模型与 Minitab Random Forests® 创建的模型相似。此外,误分类率也相似。
混淆矩阵
| 预测类别(训练) | 预测类别(测试) |
---|
是的 (事件) | 139 | 124 | 15 | 89.21 | 110 | 29 | 79.14 |
---|
不 | 164 | 8 | 156 | 95.12 | 24 | 140 | 85.37 |
---|
所有 | 303 | 132 | 171 | 92.41 | 134 | 169 | 82.51 |
---|
真阳率(敏感度或功效) | 89.21 | 79.14 |
---|
假阳率(I 类错误) | 4.88 | 14.63 |
---|
假阴率(II 类错误) | 10.79 | 20.86 |
---|
真阴率(特异度) | 95.12 | 85.37 |
---|
混淆矩阵显示模型分隔类别的正确程度。在此示例中,正确预测事件的概率为 79.14%。正确预测非事件的概率为 85.37%。
误分类
| 训练 | 测试 |
---|
是的 (事件) | 139 | 15 | 10.79 | 29 | 20.86 |
---|
不 | 164 | 8 | 4.88 | 24 | 14.63 |
---|
所有 | 303 | 23 | 7.59 | 53 | 17.49 |
---|
误分类率有助于指示模型是否可准确预测新观测值。对于事件预测,检验误分类错误为 20.86%。对于非事件预测,误分类错误为 14.63%,整体误分类错误为 17.49%。