MAD 与终端节点数图 - CART® 回归

Minitab 显示平均绝对偏差 (MAD) 值与树中终端节点数的图表,以便您选择一个树进行进一步的评估。如果使用检验数据集或 k 折叠交叉验证来验证树的性能,则 MAD 值用于验证数据。

MAD 与终端节点数图显示每个树的 MAD 值。当节点分裂方式为最小绝对偏差时,将显示此图。默认情况下,初始回归树是 MAD 值在最小 MAD 值 1 个标准误内的最小树。当分析使用交叉验证或检验数据集时,MAD 值来自于验证样本。验证样本的值通常趋于平稳,并最终随着树变大而开始增加。

单击选择备择树可打开包含模型汇总统计量表的交互图。可使用该图调查性能相似的备择树。

通常,会因以下两个原因之一而选择备择树:
  • Minitab 选择的树属于标准改进的模式。具有更多个节点的一个或多个树属于同一模式。通常,您希望从树进行预测,并尽可能地提高预测准确度。
  • Minitab 选择的树属于标准相对平直的模式。与最优树相比,模型汇总统计量相似的一个或多个树的节点要少得多。通常,树的终端节点越少,越能清晰地显示每个预测变量如何影响响应值。较小的树也更易于识别一些目标组,以便进一步研究。如果较小树的预测准确度差异可以忽略不计,则也可以使用较小的树来评估响应变量与预测变量之间的关系

解释

关键结果:具有 34 个终端节点的树的 MAD 与终端节点数图

具有 34 个终端节点的回归树的 MAD 值约为 0.38。此树的标签为“最优”,因为树的创建标准是偏差值在最小绝对偏差值 1 个标准误内的最小树。由于此图显示大约有 30 个节点和大约有 80 个节点的树之间的 MAD 值相对稳定,因此研究人员希望查看与结果中的树类似、但甚至更小的某些树的性能。比较下一个图形,查看具有 29 个节点的树的结果。

关键结果:具有 29 个终端节点的树的 MAD 与终端节点数图

具有 29 个终端节点的回归树的 MAD 值为 0.3826。使用选择备择树为不同的树创建结果时,来自初始结果的树会保留“最优”标签。