误分类成本与终端节点数的关系图显示了生成最优树的序列中每个树的误分类成本。默认情况下,初始最优树是误分类成本在误分类成本最低树的一个标准误内的最小树。当分析使用交叉验证或检验数据集时,误分类成本来自于验证样本。验证样本的误分类成本通常趋于平稳,并最终随着树变大而增加。
总预测变量 | 13 |
---|---|
重要预测变量 | 13 |
终端节点数 | 4 |
最小终端节点大小 | 27 |
统计量 | 训练 | 测试 |
---|---|---|
负对数似然平均值 | 0.4772 | 0.5164 |
ROC 曲线下面积 | 0.8192 | 0.8001 |
95% 置信区间 | (0.3438, 1) | (0.7482, 0.8520) |
提升 | 1.6189 | 1.8849 |
误分类成本 | 0.3856 | 0.4149 |
序列中具有 4 个节点的树的误分类成本接近 0.41。误分类成本降低时的模式在 4 节点树之后会继续。在这种情况下,分析人员选择探索其他一些误分类成本更低的简单树。
总预测变量 | 13 |
---|---|
重要预测变量 | 13 |
终端节点数 | 7 |
最小终端节点大小 | 5 |
统计量 | 训练 | 测试 |
---|---|---|
负对数似然平均值 | 0.3971 | 0.5094 |
ROC 曲线下面积 | 0.8861 | 0.8200 |
95% 置信区间 | (0.5590, 1) | (0.7702, 0.8697) |
提升 | 1.9376 | 1.8165 |
误分类成本 | 0.2924 | 0.3909 |
将相对交叉验证误分类成本降至最低的分类树有 7 个终端节点,相对误分类成本约为 0.39。 如 ROC 曲线下面积等其他统计量也可确认 7 节点树的性能优于 4 节点树。由于 7 节点树的节点不是很多,而且也容易解释,因此分析人员决定使用 7 节点树来研究重要变量并进行预测。
选择树后,调查图上纯度最高的终端节点。蓝色表示事件水平,红色表示非事件水平。
可以右键单击树状图来显示树的节点分裂视图。当您有一个大型树并且只想查看分裂节点的变量时,此视图非常有用。
节点继续分裂,直到终端节点无法再为了进一步分组而进行分裂。大多为蓝色的节点表示事件水平占比大。大多为红色的节点表示非事件水平占比大。
左侧子节点和右侧子节点的下一个分裂变量为“疼痛类型”,疼痛等级为 1、2、3 或 4。节点 2 是终端节点 1 的父节点,节点 5 是终端节点 7 的父节点。
使用相对变量重要性图来确定哪些预测变量是树最重要的变量。
重要变量是树中的主分裂变量或代理分裂变量。改进得分最高的变量设置为最重要的变量,其他变量依次排序。相对变量重要性标准化了重要性值,以便于解释。相对重要性定义为相对于最重要预测变量的改进百分比。
相对变量重要性的值范围是 0% 到 100%。最重要变量的相对重要性始终为 100%。如果变量不在树中,则该变量就不重要。
最准确的树是误分类成本最低的树。有时,误分类成本稍高的更简单树也比较准确。您可以使用误分类成本与终端节点图来识别备择树。
接受者抽检特征 (ROC) 曲线显示树对数据的分类效果。ROC 曲线在 y 轴上绘制真阳率,在 x 轴上绘制假阳率。真阳率也称为功效。假阳率也称为 I 类错误。
当分类树可以在响应变量中很好地分隔类别时,ROC 曲线下面积为 1,这是可能的最优分类模型。或者,如果分类树无法区分类别并完全随机进行分配,则 ROC 曲线下面积为 0.5。
使用验证技术构建树时,Minitab 会提供树在训练和验证(检验)数据上的性能的相关信息。当曲线很接近时,您可以更确信树没有过度拟合。具有检验数据的树的性能表明了树预测新数据的准确程度。
预测类别(训练) | 预测类别(测试) | ||||||
---|---|---|---|---|---|---|---|
实际类别 | 计数 | 是的 | 不 | 正确百分比 | 是的 | 不 | 正确百分比 |
是的 (事件) | 139 | 117 | 22 | 84.2 | 105 | 34 | 75.5 |
不 | 164 | 22 | 142 | 86.6 | 24 | 140 | 85.4 |
全部 | 303 | 139 | 164 | 85.5 | 129 | 174 | 80.9 |
统计量 | 训练 (%) | 测试 (%) |
---|---|---|
真阳率(敏感度或功效) | 84.2 | 75.5 |
假阳率(I 类错误) | 13.4 | 14.6 |
假阴率(II 类错误) | 15.8 | 24.5 |
真阴率(特异度) | 86.6 | 85.4 |
总体而言,训练数据的正确百分比为 85.5%,检验数据的正确百分比为 80.9%。