默认情况下,Minitab Statistical Software 为误分类成本在最小误分类成本 1 个标准误内的最小树生成输出。Minitab 允许您从可以识别最优树的序列中探索其他树。通常,会因以下两个原因之一而选择备择树:
- 最优树是误分类成本降低的模式的一部分。具有更多个节点的一个或多个树属于同一模式。通常,您希望从树进行预测,并尽可能地提高预测准确度。如果树足够简单,您还可以使用它来了解每个预测变量如何影响响应值。
- 最优树是误分类成本相对平直的模式的一部分。与最优树相比,模型汇总统计量相似的一个或多个树的节点要少得多。通常,树的终端节点越少,越能清晰地显示每个预测变量如何影响响应值。较小的树也更易于识别一些目标组,以便进一步研究。如果较小树的预测准确度差异可以忽略不计,则也可以使用较小的树来评估响应变量与预测变量之间的关系
例如,在下面的图中,具有 4 个节点的树为最优树。接下来的两个较大的树是误分类成本降低的模式的一部分。
7 节点树的误分类成本低于 4 节点树的成本。由于 7 节点树的复杂度相似,因此可以使用较大的树及其附加的预测准确度来研究重要变量并进行预测。
除了备择树的标准值外,您还可以比较树的复杂度和不同节点的有效性。关于为何与选择其他树相比,分析人员选择的特定树不会影响性能,请考虑以下原因示例:
- 分析人员选择可为最重要的变量提供更清晰视图的较小树。
- 在分析中选择某个树是因为分裂所在的变量比另一个树中的变量更易于测量。
- 分析人员选择某个树是因为关注特定的终端节点。