此命令适用于 预测分析模块。单击此处了解更多关于如何激活模块的信息。
一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。
研究人员希望找到一个能够做出最准确预测的模型。研究人员使用 发现最佳模型 (二值响应) 来比较 4 种模型的预测性能:二元逻辑回归、TreeNet®、Random Forests® 和 CART®。研究人员计划进一步探索具有最佳预测性能的模型类型。
型号选择表比较了不同类型模型的性能。Random Forests® 模型具有平均 –对数似然的最小值。以下结果适用于最佳Random Forests® 模型。
误分类率与树数图显示生成的树数的整个曲线。误分类率大约为 0.16。
模型汇总表显示平均负对数似然约为 0.39。
相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量为 Thal。如果顶部预测变量 Thal 的贡献为 100%,则下一个重要变量“主要血管”的贡献为 98.9%。这表示在此分类模型中,“主要血管”的重要性是 Thal 重要性的 98.9%。
混淆矩阵显示模型正确区分类的程度。在此示例中,正确预测事件的概率约为 87%。正确预测非事件的概率约为 81%。
误分类率有助于指示模型是否能准确预测新观测值。对于事件预测,OOB 误分类误差约为 13%。对于非事件的预测,误分类误差约为 19%。总体而言,检验数据的误分类误差约为 16%。
对于袋外数据,Random Forests® 模型的 ROC 曲线下面积约为 0.90。
拟合具有线性项和二阶项的逐步 Logistic 回归模型。 |
---|
拟合 6 TreeNet® 分类模型。 |
使用与 303 的训练数据大小相同的 Bootstrap 样本数量拟合 3 Random Forests® 分类模型。 |
拟合最优 CART® 分类模型。 |
从 5 折叠交叉评估中选择具有最大对数似然的模型。 |
总行数: 303 |
用于 Logistic 回归模型的行: 303 |
用于基于树的模型的行: 303 |
变量 | 类别 | 计数 | % |
---|---|---|---|
心脏病 | 1 (事件) | 165 | 54.46 |
0 | 138 | 45.54 | |
所有 | 303 | 100.00 |
类型内的最佳模型 | 负对数似然平均值 | ROC 曲线下面积 | 误分类率 |
---|---|---|---|
Random Forests®* | 0.3904 | 0.9048 | 0.1584 |
TreeNet® | 0.3907 | 0.9032 | 0.1520 |
Logistic 回归 | 0.4671 | 0.9142 | 0.1518 |
CART® | 1.8072 | 0.7991 | 0.2080 |
Bootstrap 样本数 | 300 |
---|---|
样本数量 | 与 303 的训练数据大小相同 |
为进行节点拆分而选定的预测变量数 | 预测变量总数的平方根 = 3 |
最小内部节点大小 | 8 |
总预测变量 | 13 |
---|---|
重要预测变量 | 13 |
统计量 | OOB |
---|---|
负对数似然平均值 | 0.3904 |
ROC 曲线下面积 | 0.9048 |
95% 置信区间 | (0.8706, 0.9389) |
提升 | 1.7758 |
误分类率 | 0.1584 |
预测类别 (OOB) | ||||
---|---|---|---|---|
实际类别 | 计数 | 1 | 0 | 正确百分比 |
1 (事件) | 165 | 143 | 22 | 86.67 |
0 | 138 | 26 | 112 | 81.16 |
所有 | 303 | 169 | 134 | 84.16 |
统计量 | OOB (%) |
---|---|
真阳率(敏感度或功效) | 86.67 |
假阳率(I 类错误) | 18.84 |
假阴率(II 类错误) | 13.33 |
真阴率(特异度) | 81.16 |
OOB | |||
---|---|---|---|
实际类别 | 计数 | 分类有误 | 误差百分比 |
1 (事件) | 165 | 22 | 13.33 |
0 | 138 | 26 | 18.84 |
所有 | 303 | 48 | 15.84 |
研究人员可以通过搜索最佳模型来查看其他模型的结果。对于 TreeNet® 模型,您可以从搜索过程中的模型中进行选择,也可以为其他模型指定超参数。
此分析生长 300 棵树,最佳树数为 46。该模型使用 0.1 的学习率和 0.5 的子样本分数。每个树的最大终端节点数为 6。
总预测变量 | 13 |
---|---|
重要预测变量 | 13 |
增长的树数 | 300 |
最优树数 | 46 |
统计量 | 训练 | 测试 |
---|---|---|
负对数似然平均值 | 0.2088 | 0.3907 |
ROC 曲线下面积 | 0.9842 | 0.9032 |
95% 置信区间 | (0.9721, 0.9964) | (0.8683, 0.9381) |
提升 | 1.8364 | 1.7744 |
误分类率 | 0.0726 | 0.1520 |
当树数为 46 时,模型摘要表指示训练数据的平均负对数似然约为 0.21,测试数据的平均负对数似然约为 0.39。
预测类别(训练) | 预测类别(测试) | ||||||
---|---|---|---|---|---|---|---|
实际类别 | 计数 | 1 | 0 | 正确百分比 | 1 | 0 | 正确百分比 |
1 (事件) | 165 | 156 | 9 | 94.55 | 147 | 18 | 89.09 |
0 | 138 | 13 | 125 | 90.58 | 28 | 110 | 79.71 |
所有 | 303 | 169 | 134 | 92.74 | 175 | 128 | 84.82 |
统计量 | 训练 (%) | 测试 (%) |
---|---|---|
真阳率(敏感度或功效) | 94.55 | 89.09 |
假阳率(I 类错误) | 9.42 | 20.29 |
假阴率(II 类错误) | 5.45 | 10.91 |
真阴率(特异度) | 90.58 | 79.71 |
混淆矩阵显示模型正确区分类的程度。在此示例中,正确预测事件的概率约为 89%。正确预测非事件的概率约为 80%。
训练 | 测试 | ||||
---|---|---|---|---|---|
实际类别 | 计数 | 分类有误 | 误差百分比 | 分类有误 | 误差百分比 |
1 (事件) | 165 | 9 | 5.45 | 18 | 10.91 |
0 | 138 | 13 | 9.42 | 28 | 20.29 |
所有 | 303 | 22 | 7.26 | 46 | 15.18 |
误分类率有助于指示模型是否将准确预测新观测值。对于事件的预测,检验误分类误差约为 11%。对于非事件的预测,误分类误差约为 20%。总体而言,检验数据的误分类误差约为 15%。