R 平方与终端节点数图显示每个树的 R2 值。默认情况下,初始回归树是 R2 值在最大 R2 值的树的 1 个标准误内的最小树。当分析使用交叉验证或检验数据集时,R2 值来自于验证样本。验证样本的值通常趋于平稳,并最终随着树变大而开始下降。
单击选择备择树可打开包含模型汇总统计量表的交互图。可使用该图调查性能相似的备择树。
具有 21 个终端节点的回归树的 R2 值约为 0.78。此树的标签为“最优”,因为树的创建标准是 R2 值在最大 R2 值 1 个标准误内的最小树。由于此图显示具有约 20 个节点的树和具有约 70 个节点的树之间的 R2 值相对稳定,因此研究人员希望查看与结果中的树类似、但更小的一些树的性能。比较下一个图形,查看具有 17 个节点的树的结果。
具有 17 个终端节点的回归树的 R2 值为 0.7661。使用选择备择树为不同的树创建结果时,来自初始结果的树会保留“最优”标签。
选择树后,可以调查树状图上独特的终端节点。例如,您可能关注均值较大或标准差较小的节点。从详细视图中,您可以看到每个节点的均值、标准差和总计数。
右键单击树状图可执行以下交互:
节点继续分裂,直到终端节点无法再为了进一步分组而进行分裂。探索其他节点,看看哪些变量最值得关注。
树状图显示完整数据集中的全部 4453 个案例。您可以在详细视图和节点分裂视图之间切换树的视图。
然后,节点 2 按药物滥用的频率分裂,节点 8 按酒精使用分裂。终端节点 17 具有计划药物治疗 = 2、酒精使用 = 1 和转介来源 = 3、5、6、100、300、400、600、700 或 800 的案例。研究人员指出,终端节点 17 具有最高的均值、最小的标准差和最多的案例。
终端节点 1 的均值最小,标准差约为 4.3。由于终端节点 1 的均值约为 5.9,并且响应值不能为负,因此节点统计量表明终端节点 1 中的数据可能向右偏斜。
使用相对变量重要性图可查看哪些预测变量是树最重要的变量。
重要变量是树中的主分裂变量或代理分裂变量。改进得分最高的变量设置为最重要的变量,其他变量依次排序。相对变量重要性将重要性值标准化,以便于解释。相对重要性定义为相对于最重要预测变量的改进百分比。
相对变量重要性的值范围是 0% 到 100%。最重要变量的相对重要性始终为 100%。如果变量不在树中,则该变量就不重要。
尽管这些结果包含 33 个重要性为正的变量,但可以根据相对排名来确定针对特定应用要控制或监控多少个变量。如果相对重要性值从一个变量到下一个变量存在大幅下降,则可以据此决定要控制或监控哪些变量。例如,在这些数据中,有三个最重要变量,它们的重要性值相对接近,随后下一个变量的相对重要性则下降近 40%。同样,有三个变量的重要性值相似,接近 50%。您可以从不同的组中删除变量并重做分析,以评估各个组中的变量如何影响模型汇总表中的预测准确度值。