CART^® 分類のゲインチャート

ゲインチャート上の点についての手順は、検証方法によって異なります。多項応答変数の場合、Minitabでは、各クラスを順番に事象として扱う複数のチャートが表示されます。

トレーニングデータセットまたは検証なし

トレーニングデータセットのチャートでは、チャート上の各点は、木のターミナルノードを表します。事象確率が最も高いターミナルノードは、チャート上の最初の点で、左端に表示されます。その他のターミナルノードは、事象確率が減少する順序に並んでいます。

次の手順を使用して、点のx座標とy座標を計算します。

各ターミナルノードの事象確率を計算します。
ここで
- n_1,kは、k^{番目のノードの事象クラスのケースの数です。}
- N_kはk^{番目のノードにあるケースの数です。}
ターミナルノードを最高の事象確率から最低の事象確率にランク付けします。
すべての事象確率をしきい値として使用します。ある特定のしきい値に関して、推定された事象確率がしきい値以上の場合は予測クラスとして1となり、それ以外の場合は0となります。次に、観測されたクラスを行とし、予測されたクラスを列として、すべての場合に対して2x2の表を形成し、各ターミナルノードに関連する真陽性率を計算することができます。グラフのy座標を求めるには、これらの真陽性率に100を掛けます。
たとえば、次の表に、4つのターミナルノードがある木を要約するとします。

A：ターミナルノード B：事象数 C：ケースの数 D：しきい値 (B/D)

4 18 30 0.60

1 25 67 0.37

3 12 56 0.21

2 4 36 0.11

合計 59 189

次に、対応する4つの表と、それぞれの真陽性率を小数点以下2桁で示します。
表 1. しきい値 = 0.60. 真陽性率 = 18 / 59 = 0.31

予測値

事象 非事象

観測事象 18 41

非事象 12 118

表 2. しきい値 = 0.37. 真陽性率 = (18 + 25) / 59 = 0.73

予測値

事象 非事象

観測事象 43 16

非事象 54 76

表 3. しきい値 = 0.21. 真陽性率 = (18 + 25 + 12) / 59 = 0.93

予測値

事象 非事象

観測事象 55 4

非事象 98 32

表 4. しきい値 = 0.11. 真陽性率 = (18 + 25 + 12 + 4) / 59 = 1

予測値

事象 非事象

観測事象 59 0

非事象 130 0
並び替えられたターミナルノードから、ターミナルノード内の母集団に対するパーセントを調べます。
ここで
- N_kはk^{番目のノードにあるケースの数です。}
- Nはトレーニングデータセット内のケースの数です。
並び替えられたターミナルノードに関して、各ターミナルノードのデータの累積パーセントを計算します。これらの累積値は、チャート上のx座標になります。
たとえば、予測確率が最も高いターミナルノードにデータの0.16が含まれ、2番目に高い事象確率のターミナルノードに母集団の0.35が含まれている場合、最初のターミナルノードのデータの累積パーセントは0.16で、 2番目のターミナルノードの母集団に対する累積パーセントは0.16 + 0.35 = 0.51です。

A：ターミナルノード	B：事象数	C：ケースの数	D：しきい値 (B/D)
4	18	30	0.60
1	25	67	0.37
3	12	56	0.21
2	4	36	0.11
合計	59	189

表 1. しきい値 = 0.60. 真陽性率 = 18 / 59 = 0.31
		予測値
		事象	非事象
観測	事象	18	41
非事象	12	118

表 2. しきい値 = 0.37. 真陽性率 = (18 + 25) / 59 = 0.73
		予測値
		事象	非事象
観測	事象	43	16
非事象	54	76

表 3. しきい値 = 0.21. 真陽性率 = (18 + 25 + 12) / 59 = 0.93
		予測値
		事象	非事象
観測	事象	55	4
非事象	98	32

表 4. しきい値 = 0.11. 真陽性率 = (18 + 25 + 12 + 4) / 59 = 1
		予測値
		事象	非事象
観測	事象	59	0
非事象	130	0

次の表は、小さな木の計算例を示しています。値は小数点以下 2 桁です。

A：ターミナルノード	B：事象数	C：ケースの数	D：並べ替えのための事象確率 (B/C)	E：真陽性率 (y 座標)	F：データのパーセント (C/C の合計)	G：データの累積パーセント、x座標
4	18	30	0.60	0.31	0.16	0.16
1	25	67	0.37	0.73	0.35	0.51
3	12	56	0.21	0.93	0.30	0.81
2	4	36	0.11	1	0.19	1.00

別のテストデータセット

トレーニングデータセットの場合と同じ手順を使用しますが、検定データセットのケースから事象確率を計算します。

K分割交差検証を使用したテスト

K分割交差検証を使用してゲインチャート上のx座標とy座標を定義する手順には、追加のステップがあります。このステップにより、多くの異なる事象確率が生成されます。たとえば、ツリー図に4つのターミナルノードがあるとします。私たちは10分割交差検証を行います。次に、i^番目の分割で、データの9/10の部分を使用して、分割iのケースの事象確率を推定します。このプロセスを各分割で繰り返す場合、個別の事象確率の最大数は4 *10 = 40です。その後、すべての個別の事象確率を降順に並べ替えます。データセット全体の場合に関して予測クラスを割り当てるには、各しきい値として事象確率を使用します。この手順の後、トレーニングデータセットの3から最後までのステップを適用し、x座標とy座標を計算します。

CART® 分類のゲインチャート

トレーニングデータセットまたは検証なし

別のテストデータセット

K分割交差検証を使用したテスト

CART^® 分類のゲインチャート