Random Forests^® 分类示例

注意

一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。

使用CART^® 分类进行初步探索以确定重要预测变量后，研究人员使用TreeNet^® 分类和Random Forests^® 分类从同一数据集创建更密集的模型。研究人员根据结果比较模型汇总表和 ROC 图，以评估哪个模型可提供更好的预测结果。有关其他分析的结果，请转到CART® 分类示例和拟合模型 with 的示例 TreeNet® 分类。

打开样本数据心脏病二进制.MWX。
选择预测分析模块 > Random Forests® 分类。
从下拉列表中，选择二元响应变量。
在响应中，输入心脏病。
在响应事件中，选择是的以指示已将患者标识为患有心脏病。
在连续预测变量中，输入年龄、血压、胆固醇、最大心率和旧峰值。
在类别预测变量中，输入性别、疼痛类型、血糖、静息心电图、运动绞痛、斜率、血管和地中海贫血。
单击确定。

解释结果

对于此分析，观测值个数为 303。300 个 bootstrap 样本中的每个样本都使用 303 个观测值来创建树。数据包括非事件和事件的良好拆分。

方法

模型验证	使用 OOB 数据进行验证
Bootstrap 样本数	300
样本数量	与 303 的训练数据大小相同
为进行节点拆分而选定的预测变量数	预测变量总数的平方根 = 3
最小内部节点大小	2
已使用的行数	303

二值响应信息

变量	类别	计数	%
心脏病	是的（事件）	139	45.87
	不	164	54.13
	所有	303	100.00

模型汇总

总预测变量	13
重要预测变量	13

统计量	OOB
负对数似然平均值	0.4004
ROC 曲线下面积	0.9028
95% 置信区间	(0.8693, 0.9363)
提升	2.1079
误分类率	0.1848

模型汇总

总预测变量	13
重要预测变量	13
增长的树数	500
最优树数	351

统计量	训练	测试
负对数似然平均值	0.2341	0.3865
ROC 曲线下面积	0.9825	0.9089
95% 置信区间	(0.9706, 0.9945)	(0.8757, 0.9421)
提升	2.1799	2.1087
误分类率	0.0759	0.1750

模型汇总表显示，负对数似然性平均值为 0.3994。这些统计量表明模型与生成 500 个树时 Minitab TreeNet® 创建的模型相似。此外，误分类率也相似。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序，绘制预测变量的重要性图。最重要的预测变量为“主要血管”。如果顶部预测变量“主要血管”的贡献为 100%，则下一个重要变量 Thal 的贡献为 89.7%。这表示在此分类模型中，Thal 重要性是“主要血管”的重要性的 89.7%。

混淆矩阵

	预测类别 (OOB)
实际类别	计数	是的	不	正确百分比
是的（事件）	139	109	30	78.42
不	164	26	138	84.15
所有	303	135	168	81.52

统计量	OOB (%)
真阳率（敏感度或功效）	78.42
假阳率（I 类错误）	15.85
假阴率（II 类错误）	21.58
真阴率（特异度）	84.15

混淆矩阵显示模型分隔类别的正确程度。在此示例中，正确预测事件的概率为 78.42%。正确预测非事件的概率为 84.15%。

误分类

	OOB
实际类别	计数	分类有误	误差百分比
是的（事件）	139	30	21.58
不	164	26	15.85
所有	303	56	18.48

误分类率有助于指示模型是否可准确预测新观测值。对于事件预测，误分类错误为 21.58%。对于非事件预测，误分类错误为 15.85%，整体误分类错误为 18.48%。

这些数据的 ROC 曲线下面积约为 0.9028，这表明与CART^® 分类模型相比略有改进。TreeNet^® 分类模型的检验 AUROC 为 0.9089，因此这两种方法给出相似的结果。

在此示例中，收益图显示参考线上方骤增，然后趋于平直。在这种情况下，大约 40% 的数据占据了大约 78% 的真阳性。这种差异是使用该模型额外获得的增益。

Random Forests® 分类示例

注意

解释结果

方法

二值响应信息

模型汇总

模型汇总

混淆矩阵

误分类

Random Forests^® 分类示例