默认情况下,Minitab Statistical Software 为标准值在最佳值一个标准误内的最小树生成结果。该标准是最小平方误差或最小绝对偏差,具体取决于您的选择。Minitab 允许您从可以识别最优树的序列中探索其他树。通常,会因以下两个原因之一而选择备择树:
- Minitab 选择的树属于标准改进的模式。具有更多个节点的一个或多个树属于同一模式。通常,您希望从树进行预测,并尽可能地提高预测准确度。
- Minitab 选择的树属于标准相对平直的模式。与最优树相比,模型汇总统计量相似的一个或多个树的节点要少得多。通常,树的终端节点越少,越能清晰地显示每个预测变量如何影响响应值。较小的树也更易于识别一些目标组,以便进一步研究。如果较小树的预测准确度差异可以忽略不计,则也可以使用较小的树来评估响应变量与预测变量之间的关系
例如,下图附带了具有 21 个节点的树的相关结果。序列中的其他树具有类似的 R
2 值。
17 节点树的 R
2 值几乎与 21 节点树的一样高。通常,树的终端节点越少,越能清晰地显示每个预测变量如何影响响应值。较小的树也更易于识别一些目标组,以便进一步研究。如果小很多的树的预测准确度降低可以忽略不计,可以使用小很多的树来评估响应变量与预测变量之间的关系。
除了备择树的标准值外,您还可以比较树的复杂度和不同节点的有效性。关于为何与选择其他树相比,分析人员选择的特定树不会影响性能,请考虑以下原因示例:
- 分析人员选择可为最重要的变量提供更清晰视图的较小树。
- 在分析中选择某个树是因为分裂所在的变量比另一个树中的变量更易于测量。
- 分析人员选择某个树是因为关注特定的终端节点。