一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。
使用CART®
分类进行初步探索以确定重要预测变量后,研究人员使用TreeNet®
分类和Random Forests®
分类从同一数据集创建更密集的模型。研究人员根据结果比较模型汇总表和 ROC 图,以评估哪个模型可提供更好的预测结果。有关其他分析的结果,请转到CART® 分类示例和拟合模型 with 的示例 TreeNet® 分类。
- 打开样本数据 心脏病二进制.MTW。
- 选择。
- 从下拉列表中,选择二元响应变量。
- 在 响应中,输入心脏病。
- 在响应事件中,选择是的以指示已将患者标识为患有心脏病。
- 在连续预测变量中,输入年龄、血压、胆固醇、最大心率和旧峰值。
- 在类别预测变量中,输入性别、疼痛类型、血糖、静息心电图、运动绞痛、斜率、血管和地中海贫血。
- 单击确定。
解释结果
对于此分析,观测值个数为 303。300 个 bootstrap 样本中的每个样本都使用 303 个观测值来创建树。数据包括非事件和事件的良好拆分。
方法
模型验证 | 使用 OOB 数据进行验证 |
---|
Bootstrap 样本数 | 300 |
---|
样本数量 | 与 303 的训练数据大小相同 |
---|
为进行节点拆分而选定的预测变量数 | 预测变量总数的平方根 = 3 |
---|
最小内部节点大小 | 2 |
---|
已使用的行数 | 303 |
---|
二值响应信息
心脏病 | 是的 (事件) | 139 | 45.87 |
---|
| 不 | 164 | 54.13 |
---|
| 所有 | 303 | 100.00 |
---|
模型汇总
负对数似然平均值 | 0.4004 |
---|
ROC 曲线下面积 | 0.9028 |
---|
95% 置信区间 | (0.8693, 0.9363) |
---|
提升 | 2.1079 |
---|
误分类率 | 0.1848 |
---|
模型汇总
总预测变量 | 13 |
---|
重要预测变量 | 13 |
---|
增长的树数 | 500 |
---|
最优树数 | 351 |
---|
负对数似然平均值 | 0.2341 | 0.3865 |
---|
ROC 曲线下面积 | 0.9825 | 0.9089 |
---|
95% 置信区间 | (0.9706, 0.9945) | (0.8757, 0.9421) |
---|
提升 | 2.1799 | 2.1087 |
---|
误分类率 | 0.0759 | 0.1750 |
---|
模型汇总表显示,负对数似然性平均值为 0.3994。这些统计量表明模型与生成 500 个树时 Minitab TreeNet® 创建的模型相似。此外,误分类率也相似。
混淆矩阵
预测类别 (OOB) |
---|
是的 (事件) | 139 | 109 | 30 | 78.42 |
---|
不 | 164 | 26 | 138 | 84.15 |
---|
所有 | 303 | 135 | 168 | 81.52 |
---|
真阳率(敏感度或功效) | 78.42 |
---|
假阳率(I 类错误) | 15.85 |
---|
假阴率(II 类错误) | 21.58 |
---|
真阴率(特异度) | 84.15 |
---|
混淆矩阵显示模型分隔类别的正确程度。在此示例中,正确预测事件的概率为 78.42%。正确预测非事件的概率为 84.15%。
误分类
OOB |
---|
是的 (事件) | 139 | 30 | 21.58 |
---|
不 | 164 | 26 | 15.85 |
---|
所有 | 303 | 56 | 18.48 |
---|
误分类率有助于指示模型是否可准确预测新观测值。对于事件预测,误分类错误为 21.58%。对于非事件预测,误分类错误为 15.85%,整体误分类错误为 18.48%。