CART^® 分类示例

一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。

研究人员希望创建一个分类树，用于识别重要的预测变量，以指示患者是否患有心脏病。

解释结果

默认情况下，Minitab 显示误分类成本在误分类成本最低的树的 1 个标准误内的最小树。该树有 4 个终端节点。

在研究人员检查该树之前，他们查看了显示交叉验证的误分类成本和终端节点数的图表。在此图中，误分类成本降低的模式在 4 节点树之后会继续。在这种情况下，分析人员选择探索其他一些误分类成本更低的简单树。

在树状图中，蓝色的项代表事件水平。红色的项代表非事件水平。在此输出中，事件水平为“是”，表示某人患有心脏病。非事件水平为“否”，表示某人没有心脏病。

在根节点处，“是”事件的计数为 139，“否”事件的计数为 164。根节点使用变量 THAL 进行分裂。当 THAL = 正常时，转到左侧节点（节点 2）。当 THAL = 固定或可逆时，转到右侧节点（节点 5）。

节点 2：THAL 为“正常”时，有 167 个案例。在这 167 个案例中，有 38 个或 22.8% 为“是”，129 个或 77.2% 为“否”。
节点 5：当 THAL 为“固定”或“可逆”时，有 136 个案例。在这 136 个案例中，有 101 个或 74.3% 为“是”，35 个或 25.7% 为“否”。

左侧子节点和右侧子节点的下一个分裂变量为“胸痛类型”，疼痛等级为 1、2、3 或 4。

探索其他节点，看看哪些变量最值得关注。大多为蓝色的节点表示事件水平占比大。大多为红色的节点表示非事件水平占比大。

7 节点 CART® 分类: 心脏病与年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 血糖, 运动绞痛, 静息心电图, 斜率, 地中海贫血, 疼痛类型, 血管