R 平方与终端节点数图 - CART® 回归

Minitab 显示 R2 值与树中终端节点数的图表,以便您选择一个树进行进一步的评估。如果使用检验数据集或 k 折叠交叉验证来验证树的性能,则 R2 值用于验证数据。

R 平方与终端节点数图显示每个树的 R2 值。默认情况下,初始回归树是 R2 值在最大 R2 值 1 个标准误内的最小树。当分析使用交叉验证或检验数据集时,R2 值来自于验证样本。验证样本的值通常趋于平稳,并最终随着树变大而开始下降。

单击选择备择树可打开包含模型汇总统计量表的交互图。可使用该图调查性能相似的备择树。

通常,会因以下两个原因之一而选择备择树:
  • Minitab 选择的树属于标准改进的模式。具有更多个节点的一个或多个树属于同一模式。通常,您希望从树进行预测,并尽可能地提高预测准确度。
  • Minitab 选择的树属于标准相对平直的模式。与最优树相比,模型汇总统计量相似的一个或多个树的节点要少得多。通常,树的终端节点越少,越能清晰地显示每个预测变量如何影响响应值。较小的树也更易于识别一些目标组,以便进一步研究。如果较小树的预测准确度差异可以忽略不计,则也可以使用较小的树来评估响应变量与预测变量之间的关系

解释

关键结果:具有 21 个终端节点的树的 R 平方与终端节点数图

具有 21 个终端节点的回归树的 R2 值约为 0.78。此树的标签为“最优”,因为树的创建标准是 R2 值在最大 R2 值 1 个标准误内的最小树。由于此图显示具有约 20 个节点的树和具有约 70 个节点的树之间的 R2 值相对稳定,因此研究人员希望查看与结果中的树类似、但更小的一些树的性能。比较下一个图形,查看具有 17 个节点的树的结果。

关键结果:具有 17 个终端节点的树的 R 平方与终端节点数图

具有 17 个终端节点的回归树的 R2 值为 0.7661。使用选择备择树为不同的树创建结果时,来自初始结果的树会保留“最优”标签。