相对变量重要性图 - CART® 回归

使用相对变量重要性图可查看哪些预测变量是树最重要的变量。

相对变量重要性将重要性值标准化,以便于解释。相对重要性定义为相对于最重要预测变量的改进百分比。

重要变量是用作树中主分裂变量或代理分裂变量的变量。改进得分最高的变量设置为最重要的变量,其他变量依次排序。相对变量重要性将重要性值标准化,以便于解释。相对重要性定义为相对于最重要预测变量的改进百分比。

相对重要性的计算方法是将每个变量重要性得分除以变量的最大重要性得分,然后再乘以 100%。

解释

相对变量重要性的值范围是 0% 到 100%。最重要变量的相对重要性始终为 100%。如果某个变量在树中根本没有使用,则该变量就不重要。

在本示例中,最重要的预测变量是酒精使用。如果顶部预测变量酒精使用的贡献为 100%,则可将其他变量与酒精使用进行比较以确定其重要性。这样,您就可以重点关注最重要的预测变量。以下列表描述了此树中第二重要的变量。
  • 滥用的主要物质计划药物治疗的重要性约为酒精使用的 92%。
  • 海洛因使用的重要性约为酒精使用的 55%。
  • 子的主要引入路由转介来源的重要性约为酒精使用的 48%。

尽管这些结果包含 33 个重要性为正的变量,但可以根据相对排名来确定针对特定应用要控制或监控多少个变量。如果相对重要性值从一个变量到下一个变量存在大幅下降,则可以据此决定要控制或监控哪些变量。例如,在这些数据中,有三个最重要变量,它们的重要性值相对接近,随后下一个变量的相对重要性则下降近 40%。同样,有三个变量的重要性值相似,接近 50%。您可以从不同的组中删除变量并重做分析,以评估各个组中的变量如何影响模型汇总表中的预测准确度值。