发现最佳模型 (二值响应) 的例子

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

搜索最佳型号类型

一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。

研究人员希望找到一个模型,使最准确的预测是可能的。研究人员使用 发现最佳模型 (二值响应) 来比较 4 种类型模型的预测性能:二元逻辑回归、TreeNet®、Random Forests® 和 CART®。研究人员计划进一步探索具有最佳预测性能的模型类型。

  1. 打开样本数据 心脏病二元最佳模型.MTW
  2. 选择预测分析模块 > 自动化机器学习 > 发现最佳模型 (二值响应)
  3. 响应中,输入'心脏病'。
  4. 在中,输入 年龄, '血压', 胆固醇, '最大心率', 和 ' 旧峰值'.。
  5. 进入 类别预测变量 中,输入, 性别, ' 疼痛类型', '血糖', '静息心电图', '运动绞痛', 斜率, '血管', 和 地中海贫血..
  6. 单击 确定

解释结果

模型选择表比较不同类型模型的性能。Random Forests® 模型具有平均 +日志的最低值。以下结果适用于最佳 Random Forests® 模型。

误分类率与树数图显示生成的树数的整个曲线。误分类率大约为 0.16。

模型汇总表显示,负对数似然性平均值为 0.39。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量为 地中海贫血。如果顶部预测变量 地中海贫血 的贡献为 100%,那么下一个重要变量 血管 的贡献为 98.9%。这意味着在此分类模型中,血管的重要性与 地中海贫血 的重要性相同 98.9%。

混淆矩阵显示模型分隔类别的正确程度。在此示例中,正确预测事件的概率约为 87%。正确预测非事件的概率约为 81%。

误分类率有助于指示模型是否可准确预测新观测值。对于事件预测,袋外错误分类误差约为 13%。对于非事件的预测,误分类误差约为 19%。总体而言,测试数据的误分类误差约为 16%。

Random Forests® 模型的 ROC 曲线下区域对于袋外数据大约为 0.90。

发现最佳模型(二值响应): 心脏病 与 年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, ...

方法 拟合具有线性项和二阶项的逐步 Logistic 回归模型。 拟合 6 TreeNet® 分类模型。 使用与 303 的训练数据大小相同的 Bootstrap 样本数量拟合 3 Random Forests® 分类模型。 拟合最优 CART® 分类模型。 从 5 折叠交叉评估中选择具有最大对数似然的模型。 总行数: 303 用于 Logistic 回归模型的行: 303 用于基于树的模型的行: 303
二值响应信息 变量 类别 计数 % 心脏病 1 (事件) 165 54.46 0 138 45.54 所有 303 100.00

模型选择

类型内的最佳模型 负对数似然平均值 ROC 曲线下面积 误分类率 Random Forests®* 0.3904 0.9048 0.1584 TreeNet® 0.3907 0.9032 0.1520 Logistic 回归 0.4671 0.9142 0.1518 CART® 1.8072 0.7991 0.2080 * 跨所有模型类型(具有最小负对数似然平均值)的最佳模型。最佳模型的输出如下所示。
最佳 Random Forests® 模型的超参数 Bootstrap 样本数 300 样本数量 与 303 的训练数据大小相同 为进行节点拆分而选定的预测变量数 预测变量总数的平方根 = 3 最小内部节点大小 8

误分类率与树数图

模型汇总 总预测变量 13 重要预测变量 13 统计量 OOB 负对数似然平均值 0.3904 ROC 曲线下面积 0.9048 95% 置信区间 (0.8706, 0.9389) 提升 1.7758 误分类率 0.1584
混淆矩阵 预测类别 (OOB) 实际类别 计数 1 0 正确百分比 1 (事件) 165 143 22 86.67 0 138 26 112 81.16 所有 303 169 134 84.16 统计量 OOB (%) 真阳率(敏感度或功效) 86.67 假阳率(I 类错误) 18.84 假阴率(II 类错误) 13.33 真阴率(特异度) 81.16
误分类 OOB 实际类别 计数 分类有误 误差百分比 1 (事件) 165 22 13.33 0 138 26 18.84 所有 303 48 15.84

接受者操作特性 (ROC) 曲线

收益图

提升图

选择备择模型

研究人员可以从寻找最佳模型中寻找其他模型的结果。对于 TreeNet® 模型,您可以从搜索的一部分的模型中进行选择,或者指定不同模型的超参数。

  1. 在模型汇总表后,单击 选择备择模型
  2. 模型类型中,选择 TreeNet®
  3. 选择现有模型,选择第三个模型,它具有最低平均值的最佳值。
  4. 单击 显示结果

解释结果

对于此分析,Minitab 生成 300 个树,最优树数为 46。该模型使用 0.1 的学习率和 0.5 的子模型分数。每个树的最大终端节点数为 6。

负对数似然性平均值与树数图显示生成的树数的整个曲线。当树数量为 46 时,检验数据的最佳值为 0.3907。

TreeNet® 分类: 心脏病 vs 年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, ...

模型汇总 总预测变量 13 重要预测变量 13 增长的树数 300 最优树数 46 统计量 训练 测试 负对数似然平均值 0.2088 0.3907 ROC 曲线下面积 0.9842 0.9032 95% 置信区间 (0.9721, 0.9964) (0.8683, 0.9381) 提升 1.8364 1.7744 误分类率 0.0726 0.1520

当树数为 46 时,模型摘要表表示训练数据的平均负日志值约为 0.21,测试数据约为 0.39。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量为“疼痛类型”。如果顶部预测变量疼痛类型的贡献为 100%,那么下一个重要变量 地中海贫血 的贡献为 95.8%。这意味着在此分类模型中,地中海贫血 与疼痛类型的重要性相同 95.8%。

TreeNet® 分类: 心脏病 vs 年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, ...

混淆矩阵 预测类别(训练) 预测类别(测试) 实际类别 计数 1 0 正确百分比 1 0 正确百分比 1 (事件) 165 156 9 94.55 147 18 89.09 0 138 13 125 90.58 28 110 79.71 所有 303 169 134 92.74 175 128 84.82 如果行的事件概率超过 0.5,则将行分配给事件类。
统计量 训练 (%) 测试 (%) 真阳率(敏感度或功效) 94.55 89.09 假阳率(I 类错误) 9.42 20.29 假阴率(II 类错误) 5.45 10.91 真阴率(特异度) 90.58 79.71

混淆矩阵显示模型分隔类别的正确程度。在此示例中,正确预测事件的概率约为 89%。正确预测非事件的概率约为 80%。

TreeNet® 分类: 心脏病 vs 年龄, 血压, 胆固醇, 最大心率, 旧峰值, 性别, 疼痛类型, 血糖, ...

误分类 训练 测试 实际类别 计数 分类有误 误差百分比 分类有误 误差百分比 1 (事件) 165 9 5.45 18 10.91 0 138 13 9.42 28 20.29 所有 303 22 7.26 46 15.18 如果行的事件概率超过 0.5,则将行分配给事件类。

误分类率有助于指示模型是否可准确预测新观测值。对于事件的预测,测试误分类误差约为 11%。对于非事件的预测,误分类误差约为 20%。总体而言,测试数据的误分类误差约为 15%。

当树数为 46 时,ROC 曲线下面积对于训练数据约为 0.98,对于检验数据约为 0.90。

在此示例中,收益图显示参考线上方骤增,然后趋于平直。在这种情况下,大约 60% 的数据占了大约 90% 的真阳性。这种差异是使用该模型额外获得的增益。

在此示例中,提升图显示参考线上方的大幅增加,在大约占总计数的 50% 后开始快速下降。

使用部分依赖图可以深入了解重要变量或变量对如何影响预测的响应。安装的响应值在 1/2 日志刻度上。部分依赖图显示响应与变量之间的关系是线性、单调还是更复杂的关系。

例如,在疼痛类型的部分依赖图中,1/2 对数几率在值 3 处最高。单击 选择更多要绘制的预测变量 以生成其他变量的图