CART® 分类中的最优树选择

根据您的选择,最优树是产生最小误分类成本的树,或误分类成本在最小误分类成本的标准误倍数内的最小树。最优树的确定取决于验证方法。

有关模型验证方法和复杂度参数的更多详细信息,请参阅 Breiman、Friedman、Olshen 和 Stone (1984)1 出版。

模型验证方法

当用于计算模型汇总统计量(如 ROC 曲线下面积)的数据与用于拟合模型的数据相同时,得到的统计量往往是乐观的。模型验证方法将部分数据排除在模型拟合过程外,然后计算统计量以评估模型在忽略的数据上的性能。模型验证技术可以更好地估计模型在新数据上的效果如何。来自忽略数据的误分类成本是用于选择最优树的标准。Minitab 为预测分析技术提供了两种验证方法:k 折叠交叉验证和使用单独的检验数据集进行验证。

使用 K 折叠交叉验证的最优树

当数据具有的案例少于或等于 5000 时,K 折叠交叉验证是 Minitab 中的默认方法。使用此方法,Minitab 将数据分到 K 个子集中。子集称为折叠。与适用于检验数据集方法的数据集相比,K 折叠交叉验证方法适用的数据集往往较小。由于该过程会重复 K 次,因此交叉验证通常比使用检验数据集进行验证要慢。

K 折叠交叉验证过程

为了完成 k 折叠交叉验证,Minitab 会生成 1 + k 个子树序列。其中一个子树序列(主序列)使用整个训练数据集。其他 k 个序列用于 k 个折叠。对于每个折叠,子树的序列使用训练数据集中的 (k – 1)/k 个案例。

每个序列均由有限的嵌套子树序列组成。每个折叠都具有有限的复杂度参数序列 αdααd + 1,这些参数对应于序列中的最大树和各个子树。用于完整数据集的序列具有复杂度参数 βdββd + 1,其中 d = 0, 1, ...D,β0 则是序列中最大树的参数。

对于主序列中的任何子树,假定相应的复杂度参数为 βdβd + 1。设 。然后,Minitab 使用此 alpha 从 k 折叠中查找 k 对应的子树。对于每个折叠,使用CART® 分类中模型汇总的方法和公式中的公式计算子树的误分类成本。k 个折叠的平均误分类成本是主序列中子树的估计误分类成本。重复计算主序列中每个子树的估计误分类成本。该过程使用最小平均误分类成本来识别子树。误分类成本最低的树或误分类成本在误分类成本标准误倍数内的最小树将成为结果中的最优树。

使用单独检验数据集的最优树

在使用检验数据集进行验证时,将留出一部分数据进行验证。这一部分数据为训练数据集。首先,Minitab 使用训练数据集对所有树进行拟合。然后,Minitab 针对每个树计算检验数据集的均方误或绝对偏差。具有检验数据集标准最优值的树为最优树。

无验证的最优树

没有任何验证时,Minitab 使用整个数据集来增大子树的序列。终端节点最多的子树具有最小的误分类成本,为最优树。

1 Breiman、Friedman、Olshen 和 Stone (1984) 编写的Classification and Regression Trees(分类和回归树),由佛罗里达州伯克莱屯:Chapman & Hall/CRC