CART^® 回归中的最优树选择

您可以指定最优树是平方误差最小的树还是绝对偏差最小的树。确定树是否为所选标准值最佳的树取决于验证方法。

关于本主题

模型验证方法
使用 K 折叠交叉验证的最优树
使用单独检验数据集的最优树
无验证的最优树

有关模型验证方法和复杂度参数的更多详细信息，请参阅 Breiman、Friedman、Olshen 和 Stone (1984)¹ 出版。

模型验证方法

当用于计算模型汇总统计量（如 R²）的数据与用于拟合模型的数据相同时，得到的统计量往往是乐观的。模型验证方法将部分数据排除在模型拟合过程外，然后计算统计量以评估模型在忽略的数据上的性能。模型验证技术可以更好地估计模型在新数据上的效果如何。Minitab 为预测分析技术提供了两种验证方法：k 折叠交叉验证和使用单独的检验数据集进行验证。

使用 K 折叠交叉验证的最优树

当数据具有的案例少于或等于 5,000 时，K 折叠交叉验证是 Minitab 中的默认方法。使用此方法，Minitab 将数据分到 K 个子集中。子集称为折叠。与适用于检验数据集方法的数据集相比，K 折叠交叉验证方法适用的数据集往往较小。由于该过程会重复 K 次，因此交叉验证通常比使用检验数据集进行验证要慢。

K 折叠交叉验证过程

为了完成 k 折叠交叉验证，Minitab 会生成 1 + k 个子树序列。其中一个子树序列（主序列）使用整个训练数据集。其他 k 个序列用于 k 个折叠。对于每个折叠，子树的序列使用训练数据集中的 (k – 1)/k 个案例。

每个序列均由有限的嵌套子树序列组成。每个折叠都具有有限的复杂度参数序列 α_d ≤ α ≤ α_{d + 1}，这些参数对应于序列中的最大树和各个子树。用于完整数据集的序列具有复杂度参数 β_d ≤ β ≤ β_{d + 1}，其中 d = 0, 1, ...D，β₀ 则是序列中最大树的参数。

对于主序列中的任何子树，假定相应的复杂度参数为 β_d 且 β_{d + 1}。设。然后，Minitab 使用此 alpha 从 k 折叠中查找 k 对应的子树。对于每个折叠，使用CART® 回归中模型汇总的方法和公式中的公式计算子树的所选标准。k 个折叠的标准平均值是主序列中子树的估计值。重复计算主序列中每个子树的标准。该平均值最小的子树为最优树。

使用单独检验数据集的最优树

在使用检验数据集进行验证时，将留出一部分数据进行验证。这一部分数据为训练数据集。首先，Minitab 使用训练数据集对所有树进行拟合。然后，Minitab 针对每个树计算检验数据集的均方误或绝对偏差。具有检验数据集标准最优值的树为最优树。

无验证的最优树

没有任何验证时，Minitab 使用整个数据集来增大子树的序列。终端节点最多的子树具有最小均方误或最小绝对偏差，为最优树。

¹ Breiman、Friedman、Olshen 和 Stone (1984) 编写的Classification and Regression Trees（分类和回归树），由佛罗里达州伯克莱屯：Chapman & Hall/CRC