トレーニングデータまたは検証なし
トレーニングデータセットのグラフでは、グラフ上の各点は、個別の適合値の事象確率を表します。最高の事象確率は、チャート上の最初の点で、左端に表示されます。その他のターミナルノードは、事象確率が減少する順に並んでいます。
次の手順に従って、チャートのx座標とy座標を計算します。
- すべての事象確率をしきい値として使用します。ある特定のしきい値に関して、推定された事象確率がしきい値以上の場合は予測クラスとして1となり、それ以外の場合は0となります。次に、観測されたクラスを行とし、予測されたクラスを列として、すべての場合に対して2x2の表を形成し、各ターミナルノードに関連する偽陽性率と真陽性率を計算できます。偽陽性率は、チャートのx座標です。真正のレートはy座標です。
たとえば、次の表に、2つの2水準のカテゴリ予測変数があるモデルを要約するとします。これらの予測変数は、小数点以下2桁に丸められた4つの異なる事象確率を示します。
| A:順序 |
B:予測変数1 |
C:予測変数2 |
D:事象数 |
E:非事象数 |
F:試行回数 |
G:しきい値 (D/F) |
| 1 |
1 |
1 |
18 |
12 |
30 |
0.60 |
| 2 |
1 |
2 |
25 |
42 |
67 |
0.37 |
| 3 |
2 |
1 |
12 |
44 |
56 |
0.21 |
| 4 |
2 |
2 |
4 |
32 |
36 |
0.11 |
| 合計 |
|
|
59 |
130 |
189 |
|
次に、対応する4つの表と、それぞれの偽陽性率と真陽性率を小数点以下2桁で示します。
表 1. しきい値 = 0.60.
偽陽性率 = 12 / (12 + 118) = 0.09
真陽性率 = 18 / (18 + 41) = 0.31
| |
|
予測 |
| |
|
事象 |
非事象 |
| 観測 |
事象 |
18 |
41 |
| 非事象 |
12 |
118 |
表 2. しきい値 = 0.37.
偽陽性率 = (12 + 42) / 130 = 0.42
真陽性率 = (18 + 25) / 59 = 0.73
| |
|
予測 |
| |
|
事象 |
非事象 |
| 観測 |
事象 |
43 |
16 |
| 非事象 |
54 |
76 |
表 3. しきい値 = 0.21.
偽陽性率 = (12 + 42 + 44) / 130 = 0.75
真陽性率 = (18 + 25 + 12) / 59 = 0.93
| |
|
予測 |
| |
|
事象 |
非事象 |
| 観測 |
事象 |
55 |
4 |
| 非事象 |
98 |
32 |
表 4. しきい値 = 0.11.
偽陽性率 = (12 + 42 + 44 + 32) / 130 = 1
真陽性率 = (18 + 25 + 12 + 4) / 59 = 1
| |
|
予測 |
| |
|
事象 |
非事象 |
| 観測 |
事象 |
59 |
0 |
| 非事象 |
130 |
0 |
別のテストデータセット
トレーニングデータセットの手段と同じ手順を使用しますが、テストデータセットのケースから事象確率を計算します。
K分割交差検証を使用したテスト
トレーニングデータセットの手段と同じ手順を使用しますが、交差検証データのケースから事象確率を計算します。