此命令适用于 预测分析模块。单击此处了解更多关于如何激活模块的信息。
然后,预测变量的重要度分值等于所有树的模型改进分值的总和。
其中,
项 | 说明 |
---|---|
N | 完整或训练数据集的样本数量 |
wi | 完整或训练数据集中第 i 个观测值的权重 |
yi | 第 i 个响应值,1 代表事件, 0 代表完整或训练数据集 |
完整数据集或训练数据集中第 i 行事件的预测概率 | |
模型中的拟合值 |
其中,
项 | 说明 |
---|---|
N | 完整数据或训练数据的样本数量 |
nk | 折叠 k 的样本数量 |
wi, k | 折叠 k 中第 i 个观测值的权重 |
yi, k | 折叠 k 中的案例 i 的二值响应值。yi, k = 1 代表事件类别,其他情况下为 0。 |
折叠 k 中的案例 i 的预测概率。预测概率来自不使用折叠 k 中的数据的模型。 | |
折叠 k 中案例 i 的拟合值。拟合值来自不使用折叠 k 中的数据的模型。 |
其中,
项 | 说明 |
---|---|
n检验 | 检验数据集的样本数量 |
wi,检验 | 检验数据集中第 i 个观测值的权重 |
yi,检验 | 检验数据集中折叠 k 中的案例 i 的二值响应值。yi, k = 1 代表事件类别,其他情况下为 0。 |
检验数据集中案例 i 的预测概率 | |
检验数据集中案例 i 的拟合值 |
其中,
项 | 说明 |
---|---|
完整或训练数据集的样本数量 | |
wi | 完整或训练数据集中第 i 个观测值的权重 |
yi, q | 第 i 个响应值在以下情况下为 1:,其他情况下为 0 |
完整或训练数据集中的第 i 行的第 q 水平响应的预测概率 | |
第 i 行的树的第 q 个序列的拟合值,用于计算响应的第 q 个水平的预测概率 |
其中,
项 | 说明 |
---|---|
N | 训练数据的样本数量 |
nk | 折叠 k 的样本数量 |
wi, k | 折叠 k 中第 i 个观测值的权重 |
yi, k, q | 折叠 k 的案例 i 的第 i 个响应值,在以下情况下为 1:,其他情况下为 0。 |
折叠 k 的第 i 行中响应的第 q 个水平的预测概率。预测概率来自不使用折叠 k 中的数据的模型。 | |
折叠 k 中第 i 行的树的第 q 个序列的拟合值,用于计算响应的第 q 个水平的预测概率。拟合值来自不使用折叠 k 中的数据的模型。 |
其中,
项 | 说明 |
---|---|
n检验 | 检验数据的样本数量 |
wi, | 检验数据集中第 i 个观测值的检验权重 |
yi,检验,q | 检验数据集中案例 i 的第 i 个响应值,在以下情况为 1:,其他情况下为 0。 |
检验数据中第 i 行的响应的第 q个水平的预测概率。预测概率来自不使用检验数据的模型。 | |
检验数据中第 i 行的树的第 q 个序列的拟合值,用于计算响应的第 q 个水平的预测概率。预测概率来自不使用检验数据的模型。 |
其中,k 是可区分事件概率的数量,(x0, y0) 是点 (0, 0)。
要从检验数据集或交叉验证数据中计算曲线的面积,请使用对应曲线中的点。
项 | 说明 |
---|---|
TPR | 真阳率 |
FPR | 假阳率 |
TP | 正确评估的事件的真阳性 |
FN | 假阴性,被错误评估的事件 |
P | 实际阳性的事件数 |
FP | 假阳性,被错误评估的非事件 |
N | 实际阴性的事件数 |
FNR | 假阴率 |
TNR | 真阴率 |
x(假阳率) | y(真阳率) |
---|---|
0.0923 | 0.3051 |
0.4154 | 0.7288 |
0.7538 | 0.9322 |
1 | 1 |
以下区间给出置信区间的上限和下限:
ROC 曲线下面积的标准误计算 () 来自 Salford Predictive Modeler®。有关 ROC 曲线下面积方差估算的一般信息,请参阅以下参考资料:
Engelmann, B. (2011)。Measures of a ratings discriminative power: Applications and limitations(评级鉴别力度量:应用和限制)。发表于 B. Engelmann 和 R. Rauhmeier(编辑)编著的 The Basel II Risk Parameters:Estimation, Validation, Stress Testing - With Applications to Loan Risk Management(Basel II 风险参数:估计、验证、压力检验 - 贷款风险管理应用案例,第二版) 海德堡;纽约:Springer。doi:10.1007/978-3-642-16114-8
Cortes, C. 和 Mohri, M.(2005 年)。Confidence intervals for the area under the ROC curve(ROC 曲线下面积的置信区间)。Advances in neural information processing systems(神经信息处理系统的进步),305-312。
Feng, D.、Cortese, G. 和 Baumgartner, R. (2017)。A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size(比较 ROC 曲线下面积的置信区间方法,以利用小样本数量进行持续诊断检验)。Statistical Methods in Medical Research(医疗研究中的统计学方法),26(6),2603-2621。doi:10.1177/0962280215602040
项 | 说明 |
---|---|
A | ROC 曲线下面积 |
标准正态分布的 0.975 百分位数 |
要查看累积提升的一般计算,请转到 使用 TreeNet® 分类 的 拟合模型 和 发现关键预测变量 的提升图的方法和公式。
在加权情况下,使用加权计数代替计数。
对于 k 折叠交叉验证,误分类计数是当每个折叠为检验数据集时,误分类的总和。
对于使用检验数据集的验证,误分类计数是检验数据集中误分类的总和,总计数针对的是检验数据集。