Random Forests® 分类示例

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。

使用CART® 分类进行初步探索以确定重要预测变量后,研究人员使用TreeNet® 分类Random Forests® 分类从同一数据集创建更密集的模型。研究人员根据结果比较模型汇总表和 ROC 图,以评估哪个模型可提供更好的预测结果。有关其他分析的结果,请转到CART® 分类示例拟合模型 with 的示例 TreeNet® 分类

  1. 打开样本数据 心脏病二进制.MTW
  2. 选择预测分析模块 > Random Forests® 分类
  3. 从下拉列表中,选择二元响应变量
  4. 响应中,输入心脏病
  5. 响应事件中,选择是的以指示已将患者标识为患有心脏病。
  6. 连续预测变量中,输入年龄血压胆固醇最大心率旧峰值
  7. 类别预测变量中,输入性别疼痛类型血糖静息心电图运动绞痛斜率血管地中海贫血
  8. 单击确定

解释结果

对于此分析,观测值个数为 303。300 个 bootstrap 样本中的每个样本都使用 303 个观测值来创建树。数据包括非事件和事件的良好拆分。

方法

模型验证使用 OOB 数据进行验证
Bootstrap 样本数300
    样本数量与 303 的训练数据大小相同
为进行节点拆分而选定的预测变量数预测变量总数的平方根 = 3
最小内部节点大小2
已使用的行数303

二值响应信息

变量类别计数%
心脏病是的 (事件)13945.87
  16454.13
  所有303100.00

误分类率与树数图显示生成的树数的整个曲线。误分类率大约为 0.18。

模型汇总

总预测变量13
重要预测变量13
统计量OOB
负对数似然平均值0.4004
ROC 曲线下面积0.9028
        95% 置信区间(0.8693, 0.9363)
提升2.1079
误分类率0.1848

模型汇总

总预测变量13
重要预测变量13
增长的树数500
最优树数351
统计量训练测试
负对数似然平均值0.23410.3865
ROC 曲线下面积0.98250.9089
        95% 置信区间(0.9706, 0.9945)(0.8757, 0.9421)
提升2.17992.1087
误分类率0.07590.1750

模型汇总表显示,负对数似然性平均值为 0.3994。这些统计量表明模型与生成 500 个树时 Minitab TreeNet® 创建的模型相似。此外,误分类率也相似。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量为“主要血管”。如果顶部预测变量“主要血管”的贡献为 100%,则下一个重要变量 Thal 的贡献为 89.7%。这表示在此分类模型中,Thal 重要性是“主要血管”的重要性的 89.7%。

混淆矩阵


预测类别 (OOB)
实际类别计数是的正确百分比
是的 (事件)1391093078.42
1642613884.15
所有30313516881.52
统计量OOB (%)
真阳率(敏感度或功效)78.42
假阳率(I 类错误)15.85
假阴率(II 类错误)21.58
真阴率(特异度)84.15

混淆矩阵显示模型分隔类别的正确程度。在此示例中,正确预测事件的概率为 78.42%。正确预测非事件的概率为 84.15%。

误分类


OOB
实际类别计数分类有误误差百分比
是的 (事件)1393021.58
1642615.85
所有3035618.48

误分类率有助于指示模型是否可准确预测新观测值。对于事件预测,误分类错误为 21.58%。对于非事件预测,误分类错误为 15.85%,整体误分类错误为 18.48%。

这些数据的 ROC 曲线下面积约为 0.9028,这表明与CART® 分类模型相比略有改进。TreeNet® 分类 模型的检验 AUROC 为 0.9089,因此这两种方法给出相似的结果。

在此示例中,收益图显示参考线上方骤增,然后趋于平直。在这种情况下,大约 40% 的数据占据了大约 78% 的真阳性。这种差异是使用该模型额外获得的增益。

在此示例中,所显示的提升图在参考线上方大幅提升,之后逐渐下降。