Random Forests® 分类示例

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。

使用CART® 分类进行初步探索以确定重要预测变量后,研究人员使用TreeNet® 分类Random Forests® 分类从同一数据集创建更密集的模型。研究人员根据结果比较模型汇总表和 ROC 图,以评估哪个模型可提供更好的预测结果。有关其他分析的结果,请转到CART® 分类示例使用 TreeNet® 分类 的 拟合模型 的示例

  1. 打开样本数据 心脏病二进制.MTW
  2. 选择预测分析模块 > Random Forests® 分类
  3. 从下拉列表中,选择二元响应变量
  4. 响应中,输入心脏病
  5. 响应事件中,选择是的以指示已将患者标识为患有心脏病。
  6. 连续预测变量中,输入年龄血压胆固醇最大心率旧峰值
  7. 类别预测变量中,输入性别疼痛类型血糖静息心电图运动绞痛斜率血管地中海贫血
  8. 单击确定

解释结果

对于此分析,观测值个数为 303。300 个 bootstrap 样本中的每个样本都使用 303 个观测值来创建树。数据包括非事件和事件的良好拆分。

Random Forests® 分类: 心脏病 vs 年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, ...

方法 模型验证 使用 OOB 数据进行验证 Bootstrap 样本数 300 样本数量 与 303 的训练数据大小相同 为进行节点拆分而选定的预测变量数 预测变量总数的平方根 = 3 最小内部节点大小 2 已使用的行数 303
二值响应信息 变量 类别 计数 % 心脏病 是的 (事件) 139 45.87 不 164 54.13 所有 303 100.00

误分类率与树数图显示生成的树数的整个曲线。误分类率大约为 0.18。

Random Forests® 分类: 心脏病 vs 年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, ...

模型汇总 总预测变量 13 重要预测变量 13 统计量 OOB 负对数似然平均值 0.4004 ROC 曲线下面积 0.9028 95% 置信区间 (0.8693, 0.9363) 提升 2.1079 误分类率 0.1848

TreeNet® 分类: 心脏病 vs 年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, ...

模型汇总 总预测变量 13 重要预测变量 13 增长的树数 500 最优树数 351 统计量 训练 测试 负对数似然平均值 0.2341 0.3865 ROC 曲线下面积 0.9825 0.9089 95% 置信区间 (0.9706, 0.9945) (0.8757, 0.9421) 提升 2.1799 2.1087 误分类率 0.0759 0.1750

模型汇总表显示,负对数似然性平均值为 0.3994。这些统计量表明模型与生成 500 个树时 Minitab TreeNet® 创建的模型相似。此外,误分类率也相似。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量为“主要血管”。如果顶部预测变量“主要血管”的贡献为 100%,则下一个重要变量 Thal 的贡献为 89.7%。这表示在此分类模型中,Thal 重要性是“主要血管”的重要性的 89.7%。

Random Forests® 分类: 心脏病 vs 年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, ...

混淆矩阵 预测类别 (OOB) 实际类别 计数 是的 不 正确百分比 是的 (事件) 139 109 30 78.42 不 164 26 138 84.15 所有 303 135 168 81.52 统计量 OOB (%) 真阳率(敏感度或功效) 78.42 假阳率(I 类错误) 15.85 假阴率(II 类错误) 21.58 真阴率(特异度) 84.15

混淆矩阵显示模型分隔类别的正确程度。在此示例中,正确预测事件的概率为 78.42%。正确预测非事件的概率为 84.15%。

Random Forests® 分类: 心脏病 vs 年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, ...

误分类 OOB 实际类别 计数 分类有误 误差百分比 是的 (事件) 139 30 21.58 不 164 26 15.85 所有 303 56 18.48

误分类率有助于指示模型是否可准确预测新观测值。对于事件预测,误分类错误为 21.58%。对于非事件预测,误分类错误为 15.85%,整体误分类错误为 18.48%。

这些数据的 ROC 曲线下面积约为 0.9028,这表明与CART® 分类模型相比略有改进。TreeNet® 分类 模型的检验 AUROC 为 0.9089,因此这两种方法给出相似的结果。

在此示例中,收益图显示参考线上方骤增,然后趋于平直。在这种情况下,大约 40% 的数据占据了大约 78% 的真阳性。这种差异是使用该模型额外获得的增益。

在此示例中,所显示的提升图在参考线上方大幅提升,之后逐渐下降。