误分类成本与终端节点数图 - CART® 分类

最准确的树是误分类成本最低的树。此树也称为最优树。

有时,误分类成本稍高的更简单树也比较准确。通常,树的终端节点越少,越能清晰地显示每个预测变量如何影响响应值。较小的树也更易于识别一些目标组,以便进一步研究。如果较小树的预测准确度差异可以忽略不计,则可以使用较小的树来评估响应变量与预测变量之间的关系。

单击 选择备择树 以打开包含模型汇总统计量表的绘图的交互式视图。使用该图可调查性能相似的更小树。

解释

在本示例中,具有 4 个终端节点的树的标签为“最优”,因为创建树的标准是最小误分类成本在最小误分类成本 1 个标准误内的最小树。具有 4 个终端节点的树的误分类成本约为 0.415。具有 6 个终端节点的树的误分类成本略低,约为 0.397。具有 7 个终端节点的树的最小误分类成本约为 0.391。当您使用 选择备择树 为不同的树创建结果时,具有 4 个终端节点的初始树会保留“最优”标签。