重要变量

Minitab Statistical Software 提供了两种方法来对变量的重要度进行排秩。

排列

排列方法使用 OOB 数据。对于分析中给定的树 j,利用此树对 OOB 数据分类。对于森林中的每个树,重复此分类。然后,计算出 OOB 数据中至少显示一次的每行的边际。边际是真实类别的票数比率减去其他类别中的最大票数比率。例如,假设在可用的 A 类、B 类和 C 类中,一个行位于 A 类中。该行在 OOB 数据中出现 100 次,分类如下:
  • A = 87
  • B= 9
  • C = 4

然后该行的边际为 0.87 - 0.09 = 0.78。

平均 OOB 边际是所有数据行的平均边际。

要确定变量的重要度,通过 OOB 数据随机排列变量 xm 的值。保持响应值和其他预测变量值不变。然后,使用相同的步骤来计算已排列数据 的平均边际

变量 xm 的重要度来自两个平均值的差值:

其中, 是排列前的平均边际。Minitab 将小于 10–7 的值四舍五入为 0。

对于分析中的每一个变量重复此过程。具有最高重要度的变量是最重要的变量。相对变量重要性分值由最重要变量的重要度进行分划:

基尼

任何分类树都是一组分裂的集合。每个分裂都提供对树的改进。

以下公式给出了单个节点的改进程度:

单个树的改进是各个节点的平方改进的总和:

其中, 是分裂的节点数, 适用于任何节点 ,其中关注的变量不是拆分变量。

整片森林的改进是森林中所有树的平方重要度的总和:

其中, 是森林中的树数, 是树中分裂的节点数

节点不纯度的计算类似于基尼方法。有关基尼方法的详细信息,请转到 节点分裂方式 - CART® 分类

具有最高重要度的变量是最重要的变量。相对变量重要性分值由最重要变量的重要度进行分划:

负对数似然平均值

当响应为二值响应时,Minitab 会计算负对数似然平均值。该计算取决于验证方法。

OOB 数据

计算使用森林中每个树的 OOB 样本。由于 OOB 样本的性质,期望使用不同的树组合来查找数据中每行的对数似然的贡献。

对于森林中的给定树,在 OOB 数据中对一行的类别投票是单个树中行的预测类别。在 OOB 数据中,行的预测类别是森林中所有树中投票率最高的类别。OOB 数据中一行的预测类别概率是该行的类别票数和总票数之比。根据以下概率进行似然计算:

其中,

并且 是 OOB 数据中行 i 的计算事件概率。

OOB 数据的表示法

说明
n OOB至少一次 OOB 的行数
yi,OOBOOB 数据中案例 i 的二值响应值。yi, OOB =1 代表事件类别,其他情况下为 0。

测试集

对于森林中的给定树,测试集中一行的类别投票是单个树中该行的预测类别。测试集中一行的预测类别是森林中所有树中投票率最高的类别。测试集中一行的预测类别概率是该行的类别票数和总票数之比。根据以下概率进行似然计算:

其中,

测试集的表示法

说明
n检验测试集的样本数量
yi,检验测试集中案例 i 的二值响应值。yi,k = 1 代表事件类别,其他情况下为 0。
测试集中案例 i 的预测事件概率

ROC 曲线下面积

当响应为二值响应时,模型汇总表包括 ROC 曲线下面积。ROC 曲线在 y 轴上标绘真阳率 (TPR),也称为功效;在 x 轴上标绘假阳率 (FPR),也称为 1 类错误。ROC 曲线下面积的值范围通常为 0.5 到 1。

公式

曲线下的面积是梯形面积的总和:

其中,k 是可区分事件概率的数量,(x0, y0) 是点 (0, 0)。

要从 OOB 数据或测试集中计算曲线的面积,请使用对应曲线中的点。

表示法

说明
TPR真阳率
FPR假阳率
TP正确评估的事件的真阳性
FN假阴性,被错误评估的事件
P实际阳性的事件数
FP假阳性,被错误评估的非事件
N实际阴性的事件数
FNR假阴率
TNR真阴率

示例

例如,假设您的结果有 4 个可区分拟合值,在 ROC 曲线上的坐标如下:
x(假阳率) y(真阳率)
0.0923 0.3051
0.4154 0.7288
0.7538 0.9322
1 1
然后,通过以下计算给出 ROC 曲线下面积:

ROC 曲线下面积的 95% 置信区间

当响应为二元响应时,Minitab 计算接受者操作特性曲线下面积的置信区间。

以下区间给出置信区间的上限和下限:

ROC 曲线下面积的标准误计算 () 来自 Salford Predictive Modeler®。有关 ROC 曲线下面积方差估算的一般信息,请参阅以下参考资料:

Engelmann, B. (2011)。Measures of a ratings discriminative power: Applications and limitations(评级鉴别力度量:应用和限制)。发表于 B. Engelmann 和 R. Rauhmeier(编辑)编著的 The Basel II Risk Parameters:Estimation, Validation, Stress Testing - With Applications to Loan Risk Management(Basel II 风险参数:估计、验证、压力检验 - 贷款风险管理应用案例,第二版) 海德堡;纽约:Springer。doi:10.1007/978-3-642-16114-8

Cortes, C. 和 Mohri, M.(2005 年)。Confidence intervals for the area under the ROC curve(ROC 曲线下面积的置信区间)。Advances in neural information processing systems(神经信息处理系统的进步),305-312。

Feng, D.、Cortese, G. 和 Baumgartner, R. (2017)。A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size(比较 ROC 曲线下面积的置信区间方法,以利用小样本数量进行持续诊断检验)。Statistical Methods in Medical Research(医疗研究中的统计学方法),26(6),2603-2621。doi:10.1177/0962280215602040

表示法

说明
AROC 曲线下面积
标准正态分布的 0.975 百分位数

提升

当响应为二进响应时,Minitab 会在模型汇总表中显示提升。模型汇总表中的提升是 10% 数据的累积提升。

要查看累积提升的一般计算,请转到 Random Forests® 分类 的累积提升图的方法和公式

误分类率

以下方程给出了误分类率:

分类有误的计数是 OOB 数据中的行数,其中,它们的预测类别与其真实类别不同。总计数是 OOB 数据中的总行数。

对于使用检验数据集验证,分类有误的计数是测试集中误分类的总和。检验数据集中的行数的总计数。