一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。
研究人员希望创建一个分类树,用于识别重要的预测变量,以指示患者是否患有心脏病。
默认情况下,Minitab 显示误分类成本在误分类成本最低的树的 1 个标准误内的最小树。该树有 4 个终端节点。
在树状图中,蓝色的项代表事件水平。红色的项代表非事件水平。在此输出中,事件水平为“是”,表示某人患有心脏病。非事件水平为“否”,表示某人没有心脏病。
左侧子节点和右侧子节点的下一个分裂变量为“胸痛类型”,疼痛等级为 1、2、3 或 4。
探索其他节点,看看哪些变量最值得关注。大多为蓝色的节点表示事件水平占比大。大多为红色的节点表示非事件水平占比大。
树状图使用整个数据集或训练数据集。您可以在详细视图和节点分裂视图之间切换树的视图。
此树的误分类成本约为 0.391。
最重要的预测变量为“胸痛类型”。如果顶部预测变量胸痛类型的贡献为 100%,则下一个重要变量主要血管的贡献为 86.5%。这意味着在此分类树中,主要血管的重要性是胸痛类型的 86.5%。
检验数据的 ROC 曲线下面积为 0.8200,这表明分类性能在很多应用中是合理的。对于需要更高预测准确性的应用程序,您可以尝试使用 TreeNet® 分类 模型或 Random Forests® 分类 模型来提高性能。
在此示例中,收益图显示参考线上方骤增,然后趋于平直。在这种情况下,大约 40% 的数据涵盖大约 70% 的真阳率。
在此示例中,提升图显示参考线上方先有增加,然后逐渐降低。
先验概率 | 对所有类别相同 |
---|---|
节点分裂 | 基尼 |
最优树 | 最小误分类成本 |
模型验证 | 10 折叠交叉验证 |
已使用的行数 | 303 |
变量 | 类别 | 计数 | % |
---|---|---|---|
心脏病 | 是的 (事件) | 139 | 45.87 |
不 | 164 | 54.13 | |
全部 | 303 | 100.00 |
总预测变量 | 13 |
---|---|
重要预测变量 | 13 |
终端节点数 | 7 |
最小终端节点大小 | 5 |
统计量 | 训练 | 测试 |
---|---|---|
负对数似然平均值 | 0.3971 | 0.5094 |
ROC 曲线下面积 | 0.8861 | 0.8200 |
95% 置信区间 | (0.5590, 1) | (0.7702, 0.8697) |
提升 | 1.9376 | 1.8165 |
误分类成本 | 0.2924 | 0.3909 |
预测类别(训练) | 预测类别(测试) | ||||||
---|---|---|---|---|---|---|---|
实际类别 | 计数 | 是的 | 不 | 正确百分比 | 是的 | 不 | 正确百分比 |
是的 (事件) | 139 | 117 | 22 | 84.2 | 105 | 34 | 75.5 |
不 | 164 | 22 | 142 | 86.6 | 24 | 140 | 85.4 |
全部 | 303 | 139 | 164 | 85.5 | 129 | 174 | 80.9 |
统计量 | 训练 (%) | 测试 (%) |
---|---|---|
真阳率(敏感度或功效) | 84.2 | 75.5 |
假阳率(I 类错误) | 13.4 | 14.6 |
假阴率(II 类错误) | 15.8 | 24.5 |
真阴率(特异度) | 86.6 | 85.4 |
输入误分类成本 | 预测类别 | |
---|---|---|
实际类别 | 是的 | 不 |
是的 | 1.00 | |
不 | 1.00 |
训练 | 测试 | ||||||
---|---|---|---|---|---|---|---|
实际类别 | 计数 | 分类有误 | 误差百分比 | 成本 | 分类有误 | 误差百分比 | 成本 |
是的 (事件) | 139 | 22 | 15.8 | 0.1583 | 34 | 24.5 | 0.2446 |
不 | 164 | 22 | 13.4 | 0.1341 | 24 | 14.6 | 0.1463 |
全部 | 303 | 44 | 14.5 | 0.1462 | 58 | 19.1 | 0.1955 |