无验证
对于训练数据集的图表,图表上的每个点都表示可区分的拟合事件概率。最高事件概率是图表上的第一个点,显示在最左侧。其他事件概率按递减顺序排列。
使用以下过程查找图表的 x 坐标和 y 坐标。
- 使用每个可区分事件概率作为阈值。对于特定阈值,估计事件概率大于或等于阈值的案例将获得 1 作为预测类别,否则获得 0。然后,可以为所有案例形成一个 2x2 的表,以观测类别作为行,以预测类别作为列来计算每个事件概率的假阳率和真阳率。假阳率是图表的 x 坐标。真阳率是 y 坐标。
例如,假设下表汇总了具有两个两水平类别预测变量的简化模型。这些预测变量提供四个可区分事件概率,四舍五入至小数点后 2 位:
| A:订单 |
B:预测变量 1 |
C: 预测变量 2 |
D:事件数 |
E:非事件数 |
F:试验数 |
G:阈值(拟合事件概率) |
| 1 |
1 |
1 |
18 |
12 |
30 |
0.60 |
| 2 |
1 |
2 |
25 |
42 |
67 |
0.37 |
| 3 |
2 |
1 |
12 |
44 |
56 |
0.21 |
| 4 |
2 |
2 |
4 |
32 |
36 |
0.11 |
| 合计 |
|
|
59 |
130 |
189 |
|
以下是相应的四个表,它们各自的假阳率和真阳率四舍五入至小数点后 2 位:
表 : 1. 阈值 = 0.60.
假阳率 = 12 / (12 + 118) = 0.09
真阳率 = 18 / (18 + 41) = 0.31
| |
|
预测 |
| |
|
事件 |
非事件 |
| 观测 |
事件 |
18 |
41 |
| 非事件 |
12 |
118 |
表 : 2. 阈值 = 0.37.
假阳率 = (12 + 42) / 130 = 0.42
真阳率 = (18 + 25) / 59 = 0.73
| |
|
预测 |
| |
|
事件 |
非事件 |
| 观测 |
事件 |
43 |
16 |
| 非事件 |
54 |
76 |
表 : 3. 阈值 = 0.21.
假阳率 = (12 + 42 + 44) / 130 = 0.75
真阳率 = (18 + 25 + 12) / 59 = 0.93
| |
|
预测 |
| |
|
事件 |
非事件 |
| 观测 |
事件 |
55 |
4 |
| 非事件 |
98 |
32 |
表 : 4. 阈值 = 0.11.
假阳率 = (12 + 42 + 44 + 32) / 130 = 1
真阳率 = (18 + 25 + 12 + 4) / 59 = 1
| |
|
预测 |
| |
|
事件 |
非事件 |
| 观测 |
事件 |
59 |
0 |
| 非事件 |
130 |
0 |
单独的测试集
使用与训练集程序相同的步骤,但从测试集的案例中计算事件概率。
使用 k 折叠交叉验证进行检验
使用与训练数据集过程相同的步骤,但从交叉验证数据的案例中计算事件概率。