此命令适用于 预测分析模块。单击此处了解更多关于如何激活模块的信息。
Minitab Statistical Software 提供了两种方法来对变量的重要度进行排秩。
然后该行的边际为 0.87 - 0.09 = 0.78。
平均 OOB 边际是所有数据行的平均边际。
要确定变量的重要度,通过 OOB 数据随机排列变量 xm 的值。保持响应值和其他预测变量值不变。然后,使用相同的步骤来计算已排列数据 的平均边际。
变量 xm 的重要度来自两个平均值的差值:
其中, 是排列前的平均边际。Minitab 将小于 10–7 的值四舍五入为 0。
任何分类树都是一组分裂的集合。每个分裂都提供对树的改进。
以下公式给出了单个节点的改进程度:
其中, 是分裂的节点数, 适用于任何节点 ,其中关注的变量不是拆分变量。
其中, 是森林中的树数, 是树中分裂的节点数 。
节点不纯度的计算类似于基尼方法。有关基尼方法的详细信息,请转到 节点分裂方式 - CART® 分类。
计算使用森林中每个树的 OOB 样本。由于 OOB 样本的性质,期望使用不同的树组合来查找数据中每行的对数似然的贡献。
对于森林中的给定树,在 OOB 数据中对一行的类别投票是单个树中行的预测类别。在 OOB 数据中,行的预测类别是森林中所有树中投票率最高的类别。OOB 数据中一行的预测类别概率是该行的类别票数和总票数之比。根据以下概率进行似然计算:
其中,
并且 是 OOB 数据中行 i 的计算事件概率。
项 | 说明 |
---|---|
n OOB | 至少一次 OOB 的行数 |
yi,OOB | OOB 数据中案例 i 的二值响应值。yi, OOB =1 代表事件类别,其他情况下为 0。 |
对于森林中的给定树,测试集中一行的类别投票是单个树中该行的预测类别。测试集中一行的预测类别是森林中所有树中投票率最高的类别。测试集中一行的预测类别概率是该行的类别票数和总票数之比。根据以下概率进行似然计算:
其中,
项 | 说明 |
---|---|
n检验 | 测试集的样本数量 |
yi,检验 | 测试集中案例 i 的二值响应值。yi,k = 1 代表事件类别,其他情况下为 0。 |
测试集中案例 i 的预测事件概率 |
其中,k 是可区分事件概率的数量,(x0, y0) 是点 (0, 0)。
要从 OOB 数据或测试集中计算曲线的面积,请使用对应曲线中的点。
项 | 说明 |
---|---|
TPR | 真阳率 |
FPR | 假阳率 |
TP | 正确评估的事件的真阳性 |
FN | 假阴性,被错误评估的事件 |
P | 实际阳性的事件数 |
FP | 假阳性,被错误评估的非事件 |
N | 实际阴性的事件数 |
FNR | 假阴率 |
TNR | 真阴率 |
x(假阳率) | y(真阳率) |
---|---|
0.0923 | 0.3051 |
0.4154 | 0.7288 |
0.7538 | 0.9322 |
1 | 1 |
以下区间给出置信区间的上限和下限:
ROC 曲线下面积的标准误计算 () 来自 Salford Predictive Modeler®。有关 ROC 曲线下面积方差估算的一般信息,请参阅以下参考资料:
Engelmann, B. (2011)。Measures of a ratings discriminative power: Applications and limitations(评级鉴别力度量:应用和限制)。发表于 B. Engelmann 和 R. Rauhmeier(编辑)编著的 The Basel II Risk Parameters:Estimation, Validation, Stress Testing - With Applications to Loan Risk Management(Basel II 风险参数:估计、验证、压力检验 - 贷款风险管理应用案例,第二版) 海德堡;纽约:Springer。doi:10.1007/978-3-642-16114-8
Cortes, C. 和 Mohri, M.(2005 年)。Confidence intervals for the area under the ROC curve(ROC 曲线下面积的置信区间)。Advances in neural information processing systems(神经信息处理系统的进步),305-312。
Feng, D.、Cortese, G. 和 Baumgartner, R. (2017)。A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size(比较 ROC 曲线下面积的置信区间方法,以利用小样本数量进行持续诊断检验)。Statistical Methods in Medical Research(医疗研究中的统计学方法),26(6),2603-2621。doi:10.1177/0962280215602040
项 | 说明 |
---|---|
A | ROC 曲线下面积 |
标准正态分布的 0.975 百分位数 |
要查看累积提升的一般计算,请转到 Random Forests® 分类 的累积提升图的方法和公式。
以下方程给出了误分类率:
分类有误的计数是 OOB 数据中的行数,其中,它们的预测类别与其真实类别不同。总计数是 OOB 数据中的总行数。
对于使用检验数据集验证,分类有误的计数是测试集中误分类的总和。检验数据集中的行数的总计数。