のリフトチャート CART® 分類

リフトチャート上の点に関する手順は、検証法によって異なります。多項応答変数の場合、Minitabでは、各クラスを順番に事象として扱う複数のチャートが表示されます。

トレーニングデータセットまたは検証なし

トレーニングデータセットのチャートで、チャート上の各点は、木のターミナルノードを表します。事象確率が最も高いターミナルノードは、チャート上の最初の点で、左端に表示されます。その他のターミナルノードは、事象確率が減少する順に並んでいます。

次の手順を使用して、点のx座標とy座標を計算します。

  1. 各ターミナルノードの事象確率を計算します。
    ここで、
    • n1, kk番目のノードの事象のクラスのケースの数で
    • Nkk番目のノードにあるケースの数です。
  2. ターミナルノードを最高の事象確率から最低の事象確率にランク付けします。
  3. 各ターミナルノードに対して、ターミナルノードのケースを事象のクラスに割り当て、他のターミナルノードのケースを非事象のクラスに割り当てます。

    たとえば、次の表に、4つのターミナルノードがある木を要約するとします。

    A:ターミナルノード B:事象の数 C:ケースの数 D:しきい値 (B/C)
    4 18 30 0.60
    1 25 67 0.37
    3 12 56 0.21
    2 4 36 0.11
    合計 59 189

    次に、対応する真陽性率を小数点以下2桁で示します。

    A:ターミナルノード B:事象の数 C:真陽性率
    4 18 18 / 59 = 0.31
    1 25 25 / 59 = 0.42
    3 12 12 / 59 = 0.20
    2 4 4 / 59 = 0.07
    合計 59

  4. 並び替えられたターミナルノードから、ターミナルノード内の母集団に対するパーセンテージを調べます。
    ここで
    • Nkk番目のノードにあるケースの数です。
    • Nは、トレーニングデータセット内のケースの数です。
  5. y座標のリフトを求めるには、真陽性率を母集団に関するパーセントで除算します。
  6. 並び替えられたターミナルノードに関して、各ターミナルノードのデータの累積パーセンテージを計算します。これらの累積値は、チャート上のx座標になります。

    たとえば、予測確率が最も高いターミナルノードに0.16のデータが含まれ、2番目に高い事象確率のターミナルノードに母集団の0.35が含まれている場合、最初のターミナルノードのデータの累積パーセントは0.16で、 2番目のターミナルノードの母集団に関する累積パーセンテージは0.16 + 0.35 = 0.51です。

次の表は、小さな木の計算例を示しています。値は小数点以下 2 桁です。

A:ターミナルノード B:事象の数 C:ケースの数 D:並べ替えのための事象確率 (B/C) E:真陽性率 F:データのパーセント (C/C の合計) G:データの累積パーセント、x座標 H:リフト(E/F)、y座標
4 18 30 0.60 0.31 0.16 0.16 1.94
1 25 67 0.37 0.42 0.35 0.51 1.20
3 12 56 0.21 0.20 0.30 0.81 0.67
2 4 36 0.11 0.07 0.19 1.00 0.37

別のテストデータセット

トレーニングデータセットの場合と同じ手順を使用しますが、テストデータセットのケースから事象確率を計算します。

K分割交差検証を使用したテスト

リフトチャートでリフトチャート上のx座標とy座標をK分割交差検証で決める手順には、追加のステップがあります。このステップにより、多くの異なる事象確率が生成されます。たとえば、ツリー図に4つのターミナルノードがあるとします。私たちは10分割交差検証を行います。次に、i番目の分割に対して、データの 9/10部分を使用して、分割iのケースの事象確率を推定します。このプロセスが各分割に対して繰り返される場合、個別の事象確率の最大数は4×10 = 40です。その後、すべての個別の事象確率を降順に並べ替え、適切なビンを形成するためにより多くのケースを必要とする個別の事象確率を組み合わせます。この手順の後、トレーニングデータセットの3から最後までのステップを適用し、x座標とy座標を計算します。