此命令适用于 预测分析模块。单击此处了解更多关于如何激活模块的信息。
一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。
使用CART® 分类进行初步探索以确定重要预测变量后,研究人员使用TreeNet® 分类和Random Forests® 分类从同一数据集创建更密集的模型。研究人员根据结果比较模型汇总表和 ROC 图,以评估哪个模型可提供更好的预测结果。有关其他分析的结果,请转到CART® 分类示例和拟合模型 with 的示例 TreeNet® 分类。
对于此分析,观测值个数为 303。300 个 bootstrap 样本中的每个样本都使用 303 个观测值来创建树。数据包括非事件和事件的良好拆分。
模型验证 | 使用 OOB 数据进行验证 |
---|---|
Bootstrap 样本数 | 300 |
样本数量 | 与 303 的训练数据大小相同 |
为进行节点拆分而选定的预测变量数 | 预测变量总数的平方根 = 3 |
最小内部节点大小 | 2 |
已使用的行数 | 303 |
变量 | 类别 | 计数 | % |
---|---|---|---|
心脏病 | 是的 (事件) | 139 | 45.87 |
不 | 164 | 54.13 | |
所有 | 303 | 100.00 |
误分类率与树数图显示生成的树数的整个曲线。误分类率大约为 0.18。
总预测变量 | 13 |
---|---|
重要预测变量 | 13 |
统计量 | OOB |
---|---|
负对数似然平均值 | 0.4004 |
ROC 曲线下面积 | 0.9028 |
95% 置信区间 | (0.8693, 0.9363) |
提升 | 2.1079 |
误分类率 | 0.1848 |
总预测变量 | 13 |
---|---|
重要预测变量 | 13 |
增长的树数 | 500 |
最优树数 | 351 |
统计量 | 训练 | 测试 |
---|---|---|
负对数似然平均值 | 0.2341 | 0.3865 |
ROC 曲线下面积 | 0.9825 | 0.9089 |
95% 置信区间 | (0.9706, 0.9945) | (0.8757, 0.9421) |
提升 | 2.1799 | 2.1087 |
误分类率 | 0.0759 | 0.1750 |
模型汇总表显示,负对数似然性平均值为 0.3994。这些统计量表明模型与生成 500 个树时 Minitab TreeNet® 创建的模型相似。此外,误分类率也相似。
相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量为“主要血管”。如果顶部预测变量“主要血管”的贡献为 100%,则下一个重要变量 Thal 的贡献为 89.7%。这表示在此分类模型中,Thal 重要性是“主要血管”的重要性的 89.7%。
预测类别 (OOB) | ||||
---|---|---|---|---|
实际类别 | 计数 | 是的 | 不 | 正确百分比 |
是的 (事件) | 139 | 109 | 30 | 78.42 |
不 | 164 | 26 | 138 | 84.15 |
所有 | 303 | 135 | 168 | 81.52 |
统计量 | OOB (%) |
---|---|
真阳率(敏感度或功效) | 78.42 |
假阳率(I 类错误) | 15.85 |
假阴率(II 类错误) | 21.58 |
真阴率(特异度) | 84.15 |
混淆矩阵显示模型分隔类别的正确程度。在此示例中,正确预测事件的概率为 78.42%。正确预测非事件的概率为 84.15%。
OOB | |||
---|---|---|---|
实际类别 | 计数 | 分类有误 | 误差百分比 |
是的 (事件) | 139 | 30 | 21.58 |
不 | 164 | 26 | 15.85 |
所有 | 303 | 56 | 18.48 |
误分类率有助于指示模型是否可准确预测新观测值。对于事件预测,误分类错误为 21.58%。对于非事件预测,误分类错误为 15.85%,整体误分类错误为 18.48%。
这些数据的 ROC 曲线下面积约为 0.9028,这表明与CART® 分类模型相比略有改进。TreeNet® 分类 模型的检验 AUROC 为 0.9089,因此这两种方法给出相似的结果。
在此示例中,收益图显示参考线上方骤增,然后趋于平直。在这种情况下,大约 40% 的数据占据了大约 78% 的真阳性。这种差异是使用该模型额外获得的增益。
在此示例中,所显示的提升图在参考线上方大幅提升,之后逐渐下降。