使用 TreeNet® 分类拟合模型发现关键预测变量 的模型汇总的方法和公式

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

选择需要的方法或公式。

重要预测变量

相对重要性为正的预测变量数。
TreeNet® 分类 模型来自一系列使用广义残差作为响应变量的小型回归树的序列。从单个树计算预测变量的模型改进分值有两个步骤:
  1. 找出预测变量拆分节点时,均值平方误差的减量。
  2. 从预测变量是节点拆分变量的所有节点添加所有减量。

然后,预测变量的重要度分值等于所有树的模型改进分值的总和。

二值响应的负对数似然平均值

该计算取决于验证方法。

训练数据或无验证

其中,

训练数据或无验证的表示法

说明
N完整或训练数据集的样本数量
wi完整或训练数据集中第 i 个观测值的权重
yii 个响应值,1 代表事件, 0 代表完整或训练数据集
完整数据集或训练数据集中第 i 行事件的预测概率
模型中的拟合值

K 折叠交叉验证

其中,

k 折叠交叉验证的表示法

说明
N完整数据或训练数据的样本数量
nk折叠 k 的样本数量
wi, k折叠 k 中第 i 个观测值的权重
yi, k折叠 k 中的案例 i 的二值响应值。yi, k = 1 代表事件类别,其他情况下为 0。
折叠 k 中的案例 i 的预测概率。预测概率来自不使用折叠 k 中的数据的模型。
折叠 k 中案例 i 的拟合值。拟合值来自不使用折叠 k 中的数据的模型。

检验数据集

其中,

检验数据集的表示法

说明
n检验检验数据集的样本数量
wi,检验检验数据集中第 i 个观测值的权重
yi,检验检验数据集中折叠 k 中的案例 i 的二值响应值。yi, k = 1 代表事件类别,其他情况下为 0。
检验数据集中案例 i 的预测概率
检验数据集中案例 i 的拟合值

多项式响应的负对数似然平均值

该计算取决于验证方法。在下列章节中, 是响应变量中的水平数。

训练数据或无验证

其中,

训练数据或无验证的表示法

说明
完整或训练数据集的样本数量
wi完整或训练数据集中第 i 个观测值的权重
yi, qi 个响应值在以下情况下为 1:,其他情况下为 0
完整或训练数据集中的第 i 行的第 q 水平响应的预测概率
i 行的树的第 q 个序列的拟合值,用于计算响应的第 q 个水平的预测概率

K 折叠交叉验证

其中,

k 折叠交叉验证的表示法

说明
N训练数据的样本数量
nk折叠 k 的样本数量
wi, k折叠 k 中第 i 个观测值的权重
yi, k, q折叠 k 的案例 ii 个响应值,在以下情况下为 1:,其他情况下为 0。
折叠 k 的第 i 行中响应的第 q 个水平的预测概率。预测概率来自不使用折叠 k 中的数据的模型。
折叠 k 中第 i 行的树的第 q 个序列的拟合值,用于计算响应的第 q 个水平的预测概率。拟合值来自不使用折叠 k 中的数据的模型。

检验数据集

其中,

检验数据集的表示法

说明
n检验检验数据的样本数量
wi,检验数据集中第 i 个观测值的检验权重
yi,检验,q检验数据集中案例 i 的第 i 个响应值,在以下情况为 1:,其他情况下为 0。
检验数据中第 i 行的响应的第 q个水平的预测概率。预测概率来自不使用检验数据的模型。
检验数据中第 i 行的树的第 q 个序列的拟合值,用于计算响应的第 q 个水平的预测概率。预测概率来自不使用检验数据的模型。

ROC 曲线下面积

当响应为二值响应时,模型汇总表包括 ROC 曲线下面积。ROC 曲线在 y 轴上标绘真阳率 (TPR),也称为功效;在 x 轴上标绘假阳率 (FPR),也称为 1 类错误。ROC 曲线下面积的值范围通常为 0.5 到 1。

公式

曲线下的面积是梯形面积的总和:

其中,k 是可区分事件概率的数量,(x0, y0) 是点 (0, 0)。

要从检验数据集或交叉验证数据中计算曲线的面积,请使用对应曲线中的点。

表示法

说明
TPR真阳率
FPR假阳率
TP正确评估的事件的真阳性
FN假阴性,被错误评估的事件
P实际阳性的事件数
FP假阳性,被错误评估的非事件
N实际阴性的事件数
FNR假阴率
TNR真阴率

示例

例如,假设您的结果有 4 个可区分拟合值,在 ROC 曲线上的坐标如下:
x(假阳率) y(真阳率)
0.0923 0.3051
0.4154 0.7288
0.7538 0.9322
1 1
然后,通过以下计算给出 ROC 曲线下面积:

ROC 曲线下面积的 95% 置信区间

当响应为二元响应时,Minitab 计算接受者操作特性曲线下面积的置信区间。

以下区间给出置信区间的上限和下限:

ROC 曲线下面积的标准误计算 () 来自 Salford Predictive Modeler®。有关 ROC 曲线下面积方差估算的一般信息,请参阅以下参考资料:

Engelmann, B. (2011)。Measures of a ratings discriminative power: Applications and limitations(评级鉴别力度量:应用和限制)。发表于 B. Engelmann 和 R. Rauhmeier(编辑)编著的 The Basel II Risk Parameters:Estimation, Validation, Stress Testing - With Applications to Loan Risk Management(Basel II 风险参数:估计、验证、压力检验 - 贷款风险管理应用案例,第二版) 海德堡;纽约:Springer。doi:10.1007/978-3-642-16114-8

Cortes, C. 和 Mohri, M.(2005 年)。Confidence intervals for the area under the ROC curve(ROC 曲线下面积的置信区间)。Advances in neural information processing systems(神经信息处理系统的进步),305-312。

Feng, D.、Cortese, G. 和 Baumgartner, R. (2017)。A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size(比较 ROC 曲线下面积的置信区间方法,以利用小样本数量进行持续诊断检验)。Statistical Methods in Medical Research(医疗研究中的统计学方法),26(6),2603-2621。doi:10.1177/0962280215602040

表示法

说明
AROC 曲线下面积
标准正态分布的 0.975 百分位数

提升

当响应为二进响应时,Minitab 会在模型汇总表中显示提升。模型汇总表中的提升是 10% 数据的累积提升。

误分类率

在加权情况下,使用加权计数代替计数。

对于 k 折叠交叉验证,误分类计数是当每个折叠为检验数据集时,误分类的总和。

对于使用检验数据集的验证,误分类计数是检验数据集中误分类的总和,总计数针对的是检验数据集。