CART 始终使用两个相邻值的平均值来计算 c。具有 N 个可区分值的连续变量将生成最多 N–1 个父节点的潜在分裂。在分析中,当最小节点大小大于 1 时,潜在分裂的实际数量将更小。
对于具有可区分值 {c1, c2, c3, ..., ck} 的类别变量,分裂是发送到左侧节点的水平子集。具有 k 个水平的类别变量最多生成 2k – 1-1 个分裂。
对于树生长阶段的潜在分裂,改进标准为最小二乘 (LS) 或最小绝对偏差 (LAD)。Minitab 将改进值最高的分裂添加到树中。如果两个预测器的改进相同,则算法需要进行选择。选择使用一个确定性的断线方案,该方案涉及预测器在工作表中的位置、预测器的类型以及分类预测器中的类数。
当分析包含模型验证方法时,Minitab 仅从训练数据来计算改进。使用以下公式计算每个标准的改进。
其中
其中
项 | 说明 |
---|---|
SSE | 平方误差的总和 |
节点中的i(序号) 记录 | |
SAE | 绝对误差的总和 |
节点响应的中位数 |
在确定最优分裂之后,Minitab 将在其他潜在分裂中查找代理分裂。代理分裂类似于记录转到左侧和右侧节点的最优分裂。相似性的衡量标准是相关性。
相关性为 1 表示代理分裂复制最优分裂。相关性为 0 表示分裂将所有记录发送到最优分裂中记录较多的节点。具有正相关性的分裂是潜在代理。代理分裂的改进用于计算变量重要性。
当新数据包含形成分裂的任何预测变量的缺失值时,Minitab 将使用最佳非缺失代理预测变量,而不是树中显示的预测变量。