节点分裂方式 - CART® 回归

回归树是对训练数据集进行二叉树递归分割的结果。训练数据集中的任何父节点都可通过有限数量的方式分裂为两个互斥的子节点,具体取决于节点中的数据值。对于连续变量 X 和值 c,分裂会将 X 的值小于或等于 c 的所有记录发送到左侧节点,将剩余记录发送到右侧节点。

CART 始终使用两个相邻值的平均值来计算 c。具有 N 个可区分值的连续变量将生成最多 N–1 个父节点的潜在分裂。在分析中,当最小节点大小大于 1 时,潜在分裂的实际数量将更小。

对于具有可区分值 {c1, c2, c3, ..., ck} 的类别变量,分裂是发送到左侧节点的水平子集。具有 k 个水平的类别变量最多生成 2k – 1-1 个分裂。

对于树生长阶段的潜在分裂,改进标准为最小二乘 (LS) 或最小绝对偏差 (LAD)。Minitab 将改进值最高的分裂添加到树中。如果两个预测器的改进相同,则算法需要进行选择。选择使用一个确定性的断线方案,该方案涉及预测器在工作表中的位置、预测器的类型以及分类预测器中的类数。

当分析包含模型验证方法时,Minitab 仅从训练数据来计算改进。使用以下公式计算每个标准的改进。

最小二乘 (LS)

其中

最小绝对偏差 (LAD)

其中

表示法

说明
SSE平方误差的总和
节点中的i(序号) 记录
SAE绝对误差的总和
节点响应的中位数

代理分裂

在确定最优分裂之后,Minitab 将在其他潜在分裂中查找代理分裂。代理分裂类似于记录转到左侧和右侧节点的最优分裂。相似性的衡量标准是相关性。

相关性为 1 表示代理分裂复制最优分裂。相关性为 0 表示分裂将所有记录发送到最优分裂中记录较多的节点。具有正相关性的分裂是潜在代理。代理分裂的改进用于计算变量重要性。

当新数据包含形成分裂的任何预测变量的缺失值时,Minitab 将使用最佳非缺失代理预测变量,而不是树中显示的预测变量。