对于训练数据集的图表,图表上的每个点都表示树中的一个终端节点。事件概率最高的终端节点是图表上的第一个点,显示在最左侧。其他终端节点按事件概率递减的顺序排列。
使用以下过程查找点的 x 坐标和 y 坐标。
例如,假设下表汇总了一个具有 4 个终端节点的树:
A:终端节点 | B:事件数 | C: 案例数 | D:阈值 (B/D) |
---|---|---|---|
4 | 18 | 30 | 0,60 |
1 | 25 | 67 | 0,37 |
3 | 12 | 56 | 0,21 |
2 | 4 | 36 | 0,11 |
合计 | 59 | 189 |
以下是相应的四个表,它们各自的真阳率精确到小数点后 2 位:
预测 | |||
---|---|---|---|
事件 | 非事件 | ||
观测 | 事件 | 18 | 41 |
非事件 | 12 | 118 |
预测 | |||
---|---|---|---|
事件 | 非事件 | ||
观测 | 事件 | 43 | 16 |
非事件 | 54 | 76 |
预测 | |||
---|---|---|---|
事件 | 非事件 | ||
观测 | 事件 | 55 | 4 |
非事件 | 98 | 32 |
预测 | |||
---|---|---|---|
事件 | 非事件 | ||
观测 | 事件 | 59 | 0 |
非事件 | 130 | 0 |
例如,如果预测概率最高的终端节点包含 0.16 的数据,而预测概率第二高的终端节点具有 0.35 的数据,则第一个终端节点数据的累积百分比为 0.16,第二个终端节点的数据累积百分比为 0.16 + 0.35 = 0.51。
下表显示了小树的计算示例。这些值精确到小数点后 2 位。
A:终端节点 | B:事件数 | C: 案例数 | D:排序事件概率 (B/C) | E:真阳率(y 坐标) | F:数据百分比(C/C 之和) | G:数据累积百分比,x 坐标 |
---|---|---|---|---|---|---|
4 | 18 | 30 | 0,60 | 0,31 | 0,16 | 0,16 |
1 | 25 | 67 | 0,37 | 0,73 | 0,35 | 0,51 |
3 | 12 | 56 | 0,21 | 0,93 | 0,30 | 0,81 |
2 | 4 | 36 | 0,11 | 1 | 0,19 | 1,00 |
使用与训练数据集案例相同的步骤,但从检验数据集的案例中计算事件概率。
使用 k 折叠交叉验证在增益图上定义 x 和 y 坐标的过程具有额外的步骤。此步骤会创建许多可区分事件概率。例如,假设树状图包含 4 个终端节点。我们有 10 折叠交叉验证。那么,对于第 i 个折叠,您使用数据的 9/10 部分来估算折叠 i 中的案例的事件概率。当针对每个折叠重复此过程时,可区分事件概率的最大数为 4 *10 = 40。之后,按递减顺序对所有可区分事件概率进行排序。使用事件概率作为每个阈值,为整个数据集中的案例分配预测类别。在此步骤之后,将应用训练数据集过程从 3 到结束的步骤来查找 x 和 y 坐标。