方法Random Forests® 分类

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

Random Forests® 模型是解决分类和回归问题的一种方法。与单个分类或回归树相比,该方法对预测变量变化的处理既更准确,又更可靠。宽泛而言,在该过程中,Minitab Statistical Software 从一个 bootstrap 样本构建一个树。Minitab 从预测变量总数中随机选择少量预测变量,以评估每个节点的最佳拆分变量。Minitab 重复这个过程,生成许多树。在分类情况下,每个树的分类是预测分类的投票。对于给定的数据行,得票最多的类别是数据集中该行的预测类别。

要构建分类树,该算法使用基尼标准来测量节点的不纯度。对于桌面应用程序,每棵树都会增长,直到无法拆分节点或节点达到拆分内部节点的最小事例数。最小案例数是 分析的一个选项。在 Web 应用中,分析添加了约束,即每棵树的终端节点限制为 4,000 个。有关分类树的构建的更多详细信息,请转到 节点分裂方式 - CART® 分类。下面是特定于 Random Forests® 的详细信息。

Bootstrap 样本

要构建每个树,该算法从完整的数据集中选择随机重置取样(bootstrap 样本)。通常,每个 bootstrap 样本都是不同的,可以包含与原始数据集不同数量的唯一行。如果您只使用 OOB 验证,则 bootstrap 样本的默认大小是原始数据集的大小。如果将样本划分为训练集和测试集,则 bootstrap 样本的默认大小与训练集的大小相同。无论哪种情况,您都可以选择指定 bootstrap 样本小于默认大小。平均而言,bootstrap 样本包含大约 2/3 的数据行。不在 bootstrap 样本中的唯一数据行是用于验证的 OOB 数据。

预测变量的随机选择

在树的每个节点上,算法随机选择预测变量总数的子集 ,以作为拆分变量评估。默认情况下,算法会选择 预测变量以在每个节点进行评估。您可以选择不同数量的预测变量进行评估,从 1 到 。如果您选择 预测变量,算法则评估每个节点的每一个预测变量,从而进行一个名为“bootstrap 森林”的分析。

在每个节点使用预测变量子集的分析中,评估的预测变量通常在每个节点上都不同。对不同预测变量的评估使森林中的树的相互关联性降低。相关性较弱的树会产生缓慢的学习效果,因此,随着您构建更多树,预测会有所改善。

使用 OOB 数据进行验证

不属于给定树的树构建过程的唯一数据行是 OOB 数据。模型性能度量(如负对数似然平均值)的计算使用 OOB 数据。有关更多详细信息,请转到 Random Forests® 分类中模型汇总的方法和公式

对于森林中的给定树,在 OOB 数据中对一行的类别投票是单个树中行的预测类别。在 OOB 数据中,行的预测类别是森林中所有树中投票率最高的类别。

OOB 数据中一行的预测类别概率是该行的类别票数和总票数之比。模型验证使用预测类别、预测类别概率和在 OOB 数据中至少出现一次的所有行的实际响应值。

训练集中一行的预测类别的确定

森林里的每个树都为训练集中的每一行投下一张类别票。从所有树得票最多的类别是预测类别。投票数还决定每个类别的预测概率:

其中 Vk 是投票行 i 位于类别 k 的树数,F 是森林中的树数。