选择最优树 - CART®分类

根据您的选择,最优树是产生最小误分类成本的树,或误分类成本在最小误分类成本的标准误倍数内的最小树。最优树的确定取决于验证方法。

有关模型验证方法和复杂度参数的更多详细信息,请参阅 Breiman、Friedman、Olshen 和 Stone (1984)1

模型验证方法

当使用与用于拟合模型的相同数据计算模型汇总统计量(如偏差 R2)时,它们往往是乐观的。模型验证方法将部分数据排除在模型拟合过程外,然后计算统计量以评估模型在忽略数据上的性能。模型验证技术可以更好地估计模型在新数据上的执行效果。来自忽略数据的误分类成本是用于选择最优树的标准。Minitab 为预测分析技术提供了两种验证方法:k 折叠交叉验证和使用单独的检验数据集进行验证。

使用 k 折叠交叉验证的最优树

当数据具有的案例少于或等于 5000 时,K 折叠交叉验证是 Minitab 中的默认方法。使用此方法,Minitab 将数据分到 K 个子集中。子集称为折叠。与相对于检验数据集具有很好表现的数据集相比,K 折叠交叉验证往往对于相对较小的数据集具有很好的表现。由于该过程会重复 K 次,因此交叉验证通常比使用检验数据集进行验证要慢。

K 折叠交叉验证过程

为了完成 k 折叠交叉验证,Minitab 会生成 1 + k 个子树序列。其中一个子树序列(主序列)使用整个训练数据集。其他 k 个序列用于 k 个折叠。对于每个折叠,子树的序列使用训练数据集中的 (k – 1)/k 个案例。

每个序列均由有限的嵌套子树序列组成。每个折叠都具有有限的复杂度参数序列 αdααd + 1 ,这些参数对应于序列中的最大树和g各个子树。用于完整数据集的序列具有复杂度参数 βd ββd + 1,其中 d = 0, 1, ...D, β0 是序列中最大树的参数。

对于主序列中的任何子树,假定相应的复杂度参数为 βd βd + 1 。让 。然后,Minitab 使用此 alpha 从 k 折叠中查找 k 对应的子树。对于每个折叠,使用 模型汇总的方式和公式 - CART®分类中的公式计算子树的误分类成本。k 个折叠的平均误分类成本是主序列中子树的估计误分类成本。重复计算主序列中每个子树的估计误分类成本。该过程使用最小平均误分类成本来识别子树。误分类成本最低的树或误分类成本在误分类成本标准误倍数内的最小树将成为结果中的最优树。

使用单独检验数据集的最优树

在使用检验数据集进行验证时,将留出一部分数据进行验证。这一部分数据为训练数据集。首先,将所有树与训练数据集进行拟合。然后,Minitab 针对每个树计算检验数据集的均方误差或绝对偏差。具有检验数据集标准最优值的树为最优树。

无验证的最优树

没有任何验证时,Minitab 使用整个数据集来增长子树的序列。终端节点最多的子树具有最小的误分类成本,为最优树。

1 Breiman、Friedman、Olshen 和 Stone。(1984)。 Classification and Regression Trees. Boca Raton,Florida:Chapman & Hall/CRC。
使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策