方法Random Forests^® 分类

注意

Random Forests^® 模型是解决分类和回归问题的一种方法。与单个分类或回归树相比，该方法对预测变量变化的处理既更准确，又更可靠。宽泛而言，在该过程中，Minitab Statistical Software 从一个 bootstrap 样本构建一个树。Minitab 从预测变量总数中随机选择少量预测变量，以评估每个节点的最佳拆分变量。Minitab 重复这个过程，生成许多树。在分类情况下，每个树的分类是预测分类的投票。对于给定的数据行，得票最多的类别是数据集中该行的预测类别。

要构建分类树，该算法使用基尼标准来测量节点的不纯度。对于桌面应用程序，每棵树都会增长，直到无法拆分节点或节点达到拆分内部节点的最小事例数。最小案例数是分析的一个选项。在 Web 应用中，分析添加了约束，即每棵树的终端节点限制为 4,000 个。有关分类树的构建的更多详细信息，请转到节点分裂方式 - CART® 分类。下面是特定于 Random Forests^® 的详细信息。

Bootstrap 样本

要构建每个树，该算法从完整的数据集中选择随机重置取样（bootstrap 样本）。通常，每个 bootstrap 样本都是不同的，可以包含与原始数据集不同数量的唯一行。如果您只使用 OOB 验证，则 bootstrap 样本的默认大小是原始数据集的大小。如果将样本划分为训练集和测试集，则 bootstrap 样本的默认大小与训练集的大小相同。无论哪种情况，您都可以选择指定 bootstrap 样本小于默认大小。平均而言，bootstrap 样本包含大约 2/3 的数据行。不在 bootstrap 样本中的唯一数据行是用于验证的 OOB 数据。