トレーニングデータセットのチャートで、チャート上の各点は、木のターミナルノードを表します。事象確率が最も高いターミナルノードは、チャート上の最初の点で、左端に表示されます。その他のターミナルノードは、事象確率が減少する順に並んでいます。
次の手順を使用して、点のx座標とy座標を計算します。
たとえば、次の表に、4つのターミナルノードがある木を要約するとします。
A:ターミナルノード | B:事象の数 | C:ケースの数 | D:しきい値 (B/C) |
---|---|---|---|
4 | 18 | 30 | 0.60 |
1 | 25 | 67 | 0.37 |
3 | 12 | 56 | 0.21 |
2 | 4 | 36 | 0.11 |
合計 | 59 | 189 |
次に、対応する真陽性率を小数点以下2桁で示します。
A:ターミナルノード | B:事象の数 | C:真陽性率 |
---|---|---|
4 | 18 | 18 / 59 = 0.31 |
1 | 25 | 25 / 59 = 0.42 |
3 | 12 | 12 / 59 = 0.20 |
2 | 4 | 4 / 59 = 0.07 |
合計 | 59 |
たとえば、予測確率が最も高いターミナルノードに0.16のデータが含まれ、2番目に高い事象確率のターミナルノードに母集団の0.35が含まれている場合、最初のターミナルノードのデータの累積パーセントは0.16で、 2番目のターミナルノードの母集団に関する累積パーセンテージは0.16 + 0.35 = 0.51です。
次の表は、小さな木の計算例を示しています。値は小数点以下 2 桁です。
A:ターミナルノード | B:事象の数 | C:ケースの数 | D:並べ替えのための事象確率 (B/C) | E:真陽性率 | F:データのパーセント (C/C の合計) | G:データの累積パーセント、x座標 | H:リフト(E/F)、y座標 |
---|---|---|---|---|---|---|---|
4 | 18 | 30 | 0.60 | 0.31 | 0.16 | 0.16 | 1.94 |
1 | 25 | 67 | 0.37 | 0.42 | 0.35 | 0.51 | 1.20 |
3 | 12 | 56 | 0.21 | 0.20 | 0.30 | 0.81 | 0.67 |
2 | 4 | 36 | 0.11 | 0.07 | 0.19 | 1.00 | 0.37 |
トレーニングデータセットの場合と同じ手順を使用しますが、テストデータセットのケースから事象確率を計算します。
リフトチャートでリフトチャート上のx座標とy座標をK分割交差検証で決める手順には、追加のステップがあります。このステップにより、多くの異なる事象確率が生成されます。たとえば、ツリー図に4つのターミナルノードがあるとします。私たちは10分割交差検証を行います。次に、i番目の分割に対して、データの 9/10部分を使用して、分割iのケースの事象確率を推定します。このプロセスが各分割に対して繰り返される場合、個別の事象確率の最大数は4×10 = 40です。その後、すべての個別の事象確率を降順に並べ替え、適切なビンを形成するためにより多くのケースを必要とする個別の事象確率を組み合わせます。この手順の後、トレーニングデータセットの3から最後までのステップを適用し、x座標とy座標を計算します。