のリフトチャート CART^® 分類

リフトチャート上の点に関する手順は、検証法によって異なります。多項応答変数の場合、Minitabでは、各クラスを順番に事象として扱う複数のチャートが表示されます。

トレーニングデータセットまたは検証なし

トレーニングデータセットのチャートで、チャート上の各点は、木のターミナルノードを表します。事象確率が最も高いターミナルノードは、チャート上の最初の点で、左端に表示されます。その他のターミナルノードは、事象確率が減少する順に並んでいます。

次の手順を使用して、点のx座標とy座標を計算します。

各ターミナルノードの事象確率を計算します。
ここで、
- n_{1, k}はk^{番目のノードの事象のクラスのケースの数で}
- N_kはk^{番目のノードにあるケースの数です。}
ターミナルノードを最高の事象確率から最低の事象確率にランク付けします。

各ターミナルノードに対して、ターミナルノードのケースを事象のクラスに割り当て、他のターミナルノードのケースを非事象のクラスに割り当てます。

たとえば、次の表に、4つのターミナルノードがある木を要約するとします。

A：ターミナルノード	B：事象の数	C：ケースの数	D：しきい値 (B/C)
4	18	30	0.60
1	25	67	0.37
3	12	56	0.21
2	4	36	0.11
合計	59	189

次に、対応する真陽性率を小数点以下2桁で示します。

A：ターミナルノード	B：事象の数	C：真陽性率
4	18	18 / 59 = 0.31
1	25	25 / 59 = 0.42
3	12	12 / 59 = 0.20
2	4	4 / 59 = 0.07
合計	59

並び替えられたターミナルノードから、ターミナルノード内の母集団に対するパーセンテージを調べます。
ここで
- N_kはk^{番目のノードにあるケースの数です。}
- Nは、トレーニングデータセット内のケースの数です。
y座標のリフトを求めるには、真陽性率を母集団に関するパーセントで除算します。
並び替えられたターミナルノードに関して、各ターミナルノードのデータの累積パーセンテージを計算します。これらの累積値は、チャート上のx座標になります。
たとえば、予測確率が最も高いターミナルノードに0.16のデータが含まれ、2番目に高い事象確率のターミナルノードに母集団の0.35が含まれている場合、最初のターミナルノードのデータの累積パーセントは0.16で、 2番目のターミナルノードの母集団に関する累積パーセンテージは0.16 + 0.35 = 0.51です。

次の表は、小さな木の計算例を示しています。値は小数点以下 2 桁です。

A：ターミナルノード	B：事象の数	C：ケースの数	D：並べ替えのための事象確率 (B/C)	E：真陽性率	F：データのパーセント (C/C の合計)	G：データの累積パーセント、x座標	H：リフト(E/F)、y座標
4	18	30	0.60	0.31	0.16	0.16	1.94
1	25	67	0.37	0.42	0.35	0.51	1.20
3	12	56	0.21	0.20	0.30	0.81	0.67
2	4	36	0.11	0.07	0.19	1.00	0.37

別のテストデータセット

トレーニングデータセットの場合と同じ手順を使用しますが、テストデータセットのケースから事象確率を計算します。

K分割交差検証を使用したテスト

リフトチャートでリフトチャート上のx座標とy座標をK分割交差検証で決める手順には、追加のステップがあります。このステップにより、多くの異なる事象確率が生成されます。たとえば、ツリー図に4つのターミナルノードがあるとします。私たちは10分割交差検証を行います。次に、ⁱ番目の分割に対して、データの 9/10部分を使用して、分割iのケースの事象確率を推定します。このプロセスが各分割に対して繰り返される場合、個別の事象確率の最大数は4×10 = 40です。その後、すべての個別の事象確率を降順に並べ替え、適切なビンを形成するためにより多くのケースを必要とする個別の事象確率を組み合わせます。この手順の後、トレーニングデータセットの3から最後までのステップを適用し、x座標とｙ座標を計算します。

のリフトチャート CART® 分類

トレーニングデータセットまたは検証なし

別のテストデータセット

K分割交差検証を使用したテスト

のリフトチャート CART^® 分類