CART® 回归中的最优树选择

您可以指定最优树是平方误差最小的树还是绝对偏差最小的树。确定树是否为所选标准值最佳的树取决于验证方法。

有关模型验证方法和复杂度参数的更多详细信息,请参阅 Breiman、Friedman、Olshen 和 Stone (1984)1 出版。

模型验证方法

当用于计算模型汇总统计量(如 R2)的数据与用于拟合模型的数据相同时,得到的统计量往往是乐观的。模型验证方法将部分数据排除在模型拟合过程外,然后计算统计量以评估模型在忽略的数据上的性能。模型验证技术可以更好地估计模型在新数据上的效果如何。Minitab 为预测分析技术提供了两种验证方法:k 折叠交叉验证和使用单独的检验数据集进行验证。

使用 K 折叠交叉验证的最优树

当数据具有的案例少于或等于 5,000 时,K 折叠交叉验证是 Minitab 中的默认方法。使用此方法,Minitab 将数据分到 K 个子集中。子集称为折叠。与适用于检验数据集方法的数据集相比,K 折叠交叉验证方法适用的数据集往往较小。由于该过程会重复 K 次,因此交叉验证通常比使用检验数据集进行验证要慢。

K 折叠交叉验证过程

为了完成 k 折叠交叉验证,Minitab 会生成 1 + k 个子树序列。其中一个子树序列(主序列)使用整个训练数据集。其他 k 个序列用于 k 个折叠。对于每个折叠,子树的序列使用训练数据集中的 (k – 1)/k 个案例。

每个序列均由有限的嵌套子树序列组成。每个折叠都具有有限的复杂度参数序列 αdααd + 1,这些参数对应于序列中的最大树和各个子树。用于完整数据集的序列具有复杂度参数 βdββd + 1,其中 d = 0, 1, ...D,β0 则是序列中最大树的参数。

对于主序列中的任何子树,假定相应的复杂度参数为 βdβd + 1。设 。然后,Minitab 使用此 alpha 从 k 折叠中查找 k 对应的子树。对于每个折叠,使用CART® 回归中模型汇总的方法和公式中的公式计算子树的所选标准。k 个折叠的标准平均值是主序列中子树的估计值。重复计算主序列中每个子树的标准。该平均值最小的子树为最优树。

使用单独检验数据集的最优树

在使用检验数据集进行验证时,将留出一部分数据进行验证。这一部分数据为训练数据集。首先,Minitab 使用训练数据集对所有树进行拟合。然后,Minitab 针对每个树计算检验数据集的均方误或绝对偏差。具有检验数据集标准最优值的树为最优树。

无验证的最优树

没有任何验证时,Minitab 使用整个数据集来增大子树的序列。终端节点最多的子树具有最小均方误或最小绝对偏差,为最优树。

1 Breiman、Friedman、Olshen 和 Stone (1984) 编写的Classification and Regression Trees(分类和回归树),由佛罗里达州伯克莱屯:Chapman & Hall/CRC