重要预测变量

具有正相对重要性的预测变量数。

任何分类树都是一组分裂的集合。每个分裂都提供对树的改进。每个分裂还包含代理分裂,这些分裂也提供对树的改进。当树使用变量来分裂节点,或作为代理来分裂节点而另一个变量的值缺失时,变量的重要性由其所有改进提供。

以下公式提供单个节点的改进:

I(t)、 pp右 的值 取决于分裂节点的标准。有关详细信息,请转到 节点分裂方式 - CART®分类

q 个预测变量的相对重要性公式按最重要的变量来调节重要性:

偏差 R 平方

当响应为二值响应时,Minitab 计算偏差 R 平方值。以下方程给出了偏差 R 2 的公式:

偏差值的计算取决于验证技术。

训练数据或无验证

训练数据或无验证的表示法

说明
数据中事件的概率
N完整数据或训练数据的样本大小
wi完整数据集或训练数据集中第 i 个观测值的权重
yi完整数据集或训练数据集中的指示变量,1 代表事件,其他情况下为 0
对数似然均值

K 折叠交叉验证

对于交叉验证,计算一次忽略一个折叠。

k 折叠交叉验证的表示法

说明
K折叠数
数据中不包括折叠 j 观测值的事件的概率
nj折叠 j 的样本大小
wij折叠 j 中第 i 个观测值的权重
yij折叠 j 中数据的指示变量,1 代表事件,其他情况下为 0
模型估计中不包括折叠 j 第 i 个观测值的事件的预测概率

检验数据集

检验数据集的计算与训练数据的计算类似,但使用检验数据。

检验数据集的表示法

说明
训练数据集中事件的概率
n检验检验数据集的样本大小
wi, 检验检验数据集中第 i 个观测值的权重
yi, 检验检验数据集中数据的指示变量,1 代表事件,其他情况下为 0
对数似然均值

负对数似然平均值

当响应为二值响应时,Minitab 会计算负对数似然函数的平均值。该计算取决于验证方法。

训练数据或无验证

其中

训练数据或无验证的表示法

说明
N完整数据或训练数据的样本大小
wi完整或训练数据集中第 i 个观测值的权重
yi完整或训练数据集的指示变量,1 代表事件,其他情况下为 0
完整数据集或训练数据集中第 i 行事件的预测概率

K 折叠交叉验证

其中

k 折叠交叉验证的表示法

说明
N完整数据或训练数据的样本大小
nj折叠 j 的样本大小
wij折叠 j 中第 i 个观测值的权重
yij折叠 j 中数据的指示变量,1 代表事件,其他情况下为 0
模型估计中不包括折叠 j 第 i 个观测值的事件的预测概率

检验数据集

其中

检验数据集的表示法

说明
n检验检验数据集的样本大小
wi, 检验检验数据集中第 i 个观测值的权重
yi, 检验检验数据集中数据的指示变量,1 代表事件,其他情况下为 0
训练数据集中第 i 行事件的预测概率

ROC 曲线下面积

ROC 曲线在 y 轴上绘制真阳率 (TPR),也称为功效,在 x 轴上绘制假阳率 (FPR),也称为 1 类错误。ROC 曲线下面积的值范围是 0.5 到 1。

公式

对于曲线下面积,Minitab 使用积分。

大多数情况下,此积分等于以下梯形面积的总和:

其中 k 是终端节点数,(x0, y0) 是点 (0, 0)。

例如,假设您的结果有 4 个终端节点,在 ROC 曲线上的坐标如下:
x(假阳率) y(真阳率)
0.0923 0.3051
0.4154 0.7288
0.7538 0.9322
1 1
然后,通过以下计算给出 ROC 曲线下面积:

表示法

说明
TRP 真阳率
FPR 假阳率
TP正确评估的事件的真阳性
P 实际阳性的事件数
FP正确评估的非事件的真阴性
N 实际阴性的事件数
FNR假阴率
TNR真阴率

ROC 曲线下面积的 95% 置信区间

当响应为二值响应时,Minitab 计算接受者抽检特征曲线下面积的置信区间。

以下区间给出置信区间的上限和下限:

ROC 曲线下面积的标准误 () 计算来自于 Salford Predictive Modeler®。有关 ROC 曲线下面积方差估算的一般信息,请参阅以下参考:

Engelmann, B.(2011)。Measures of a ratings discriminative power:Applications and limitations.发表于 B. Engelmann 和 R. Rauhmeier(编辑)编著的 The Basel II Risk Parameters:Estimation, Validation, Stress Testing - With Applications to Loan Risk Management(第二版) 海德堡;纽约:Springer。doi:10.1007/978-3-642-16114-8

Cortes, C. 和 Mohri, M.(2005)。Confidence intervals for the area under the ROC curve. Advances in neural information processing systems,305-312。

Feng, D.、Cortese, G. 和 Baumgartner, R.(2017)。A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6),2603-2621。doi:10.1177/0962280215602040

表示法

说明
AROC 曲线下面积
标准正态分布的百分位数

提升

当响应为二进响应时,Minitab 会在模型汇总表中显示提升。模型汇总表中的提升是 10% 数据的累计提升,具有最佳的正确分类机会。

公式

对于数据中分配给事件类别的概率最高的 10% 观测值,请使用以下公式。

对于使用检验数据集的检验提升,请使用检验数据集中的观测值。对于使用 k 折叠交叉验证的检验提升,选择要使用的数据,然后根据数据不在模型估计中的预测概率来计算提升。

表示法

说明
d10% 数据中的案例数
事件的预测概率
训练数据中事件的概率,如果分析不使用验证,则为完整数据集中事件的概率

误分类成本

模型汇总表中的误分类成本是模型相对于将所有观测值分类为频率最高类别的细小分类器的相对误分类成本。

要查找误分类成本,请从以下定义开始:

相对误分类成本的形式如下:

其中 R0 是细小分类器的成本。

当先验概率相等或来自数据时, R 的公式会简化。

先验概率相等

当先验概率相等时,以下定义适用:
使用此定义, R 的形式如下:

先验概率来自数据

当先验概率来自数据时,以下定义适用:

使用此定义, R 的形式如下:

表示法

说明
πj响应变量第 j 个类别的先验概率
将类别 i 误分类为类别 j 的成本
类别数 i 误分类为类别 j 的记录
Nj响应变量第 j 个类别的案例数
K响应变量中的类别数
N数据中的案例数
使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策