Random Forests® 分类的相对变量重要性图

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

相对变量重要性图按照在对整个森林的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。改进得分最高的变量设置为最重要的变量,其他变量按重要性依次排序。相对变量重要性将重要性值标准化,以便于解释。相对重要性定义为相对于重要性为 100% 的最重要预测变量的改进百分比。

相对重要性的计算方法是将每个变量重要性得分除以变量的最大重要性得分,然后再乘以 100%。

解释

相对变量重要性的值范围是 0% 到 100%。最重要变量的相对重要性始终为 100%。如果变量不在任何树中,则该变量就不重要。

Minitab 使用两种方法来计算变量重要性图上变量的相对重要性分值。对于排列,Minitab 通过使用图上变量的排列值再次验证模型,以评估模型的性能变差多少。对于基尼,Minitab 对变量为所有树实现的改进进行求和。排列 是用于具有 5000 条或更少记录的数据集的默认方法。在分析用时不太长且重要预测变量的确定是重要目标时,考虑是否要将 排列 用于较大的数据集。

最重要的预测变量为“主要血管”。如果顶部预测变量“主要血管”的贡献为 100%,则本示例中下一个重要变量 Thal 的贡献为 89.7%。这表示在此分类模型中,Thal 重要性是“主要血管”的重要性的 89.7%。