按终端节点的响应箱线图 - CART® 回归

箱线图以图形方式汇总了每个终端节点中响应变量的分布情况。使用箱线图可比较节点的形状、中心趋势和变异性。当终端节点中的案例数大于 20 时,更适合用箱线图以可视方式表示响应值。

解释

默认情况下,节点按误差从小到大的顺序排列。运行分析时,按图形按钮可以找到按标识号对节点进行排序的选项。

当分析使用检验数据集时,该图形中会包含分别单独对应于训练数据和检验数据的箱线图。树在检验数据上的性能通常能够更好地表示树对新数据的执行效果。应仔细检查检验数据与训练数据之间的显著差异。

在下图中,3 个最高中位数用于终端节点 17、16 和 14,它们的误差也最小。终端节点 1 的中位数最小。终端节点 1 和 3 各有一个异常值,而其他终端节点则有 1 个以上的异常值。终端节点 8 的误差最大。