此命令适用于 预测分析模块。单击此处了解更多关于如何激活模块的信息。
一个研究小组收集并发布了有关影响心脏病的因素的详细信息。变量包括年龄、性别、胆固醇水平、最大心率等。本示例基于一个提供心脏病详细信息的公共数据集。原始数据来自于 archive.ics.uci.edu。
研究人员希望找到一个模型,使最准确的预测是可能的。研究人员使用 发现最佳模型 (二值响应) 来比较 4 种类型模型的预测性能:二元逻辑回归、TreeNet®、Random Forests® 和 CART®。研究人员计划进一步探索具有最佳预测性能的模型类型。
模型选择表比较不同类型模型的性能。Random Forests® 模型具有平均 +日志的最低值。以下结果适用于最佳 Random Forests® 模型。
误分类率与树数图显示生成的树数的整个曲线。误分类率大约为 0.16。
模型汇总表显示,负对数似然性平均值为 0.39。
相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量为 地中海贫血。如果顶部预测变量 地中海贫血 的贡献为 100%,那么下一个重要变量 血管 的贡献为 98.9%。这意味着在此分类模型中,血管的重要性与 地中海贫血 的重要性相同 98.9%。
混淆矩阵显示模型分隔类别的正确程度。在此示例中,正确预测事件的概率约为 87%。正确预测非事件的概率约为 81%。
误分类率有助于指示模型是否可准确预测新观测值。对于事件预测,袋外错误分类误差约为 13%。对于非事件的预测,误分类误差约为 19%。总体而言,测试数据的误分类误差约为 16%。
Random Forests® 模型的 ROC 曲线下区域对于袋外数据大约为 0.90。
研究人员可以从寻找最佳模型中寻找其他模型的结果。对于 TreeNet® 模型,您可以从搜索的一部分的模型中进行选择,或者指定不同模型的超参数。
对于此分析,Minitab 生成 300 个树,最优树数为 46。该模型使用 0.1 的学习率和 0.5 的子模型分数。每个树的最大终端节点数
负对数似然性平均值与树数图显示生成的树数的整个曲线。当树数量为 46 时,检验数据的最佳值为 0.3907。
当树数为 46 时,模型摘要表表示训练数据的平均负日志值约为 0.21,测试数据约为 0.39。
相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量为“疼痛类型”。如果顶部预测变量疼痛类型的贡献为 100%,那么下一个重要变量 地中海贫血 的贡献为 95.8%。这意味着在此分类模型中,地中海贫血 与疼痛类型的重要性相同 95.8%。
混淆矩阵显示模型分隔类别的正确程度。在此示例中,正确预测事件的概率约为 89%。正确预测非事件的概率约为 80%。
误分类率有助于指示模型是否可准确预测新观测值。对于事件的预测,测试误分类误差约为 11%。对于非事件的预测,误分类误差约为 20%。总体而言,测试数据的误分类误差约为 15%。
当树数为 46 时,ROC 曲线下面积对于训练数据约为 0.98,对于检验数据约为 0.90。
在此示例中,收益图显示参考线上方骤增,然后趋于平直。在这种情况下,大约 60% 的数据占了大约 90% 的真阳性。这种差异是使用该模型额外获得的增益。
在此示例中,提升图显示参考线上方的大幅增加,在大约占总计数的 50% 后开始快速下降。
使用部分依赖图可以深入了解重要变量或变量对如何影响预测的响应。安装的响应值在 1/2 日志刻度上。部分依赖图显示响应与变量之间的关系是线性、单调还是更复杂的关系。
例如,在疼痛类型的部分依赖图中,1/2 对数几率在值 3 处最高。单击 选择更多要绘制的预测变量 以生成其他变量的图