Random Forests® 分類の受信者動作特性 (ROC) 曲線チャートの方法と式

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

ROC曲線上の点に関する手順は、検証方法によって異なります。多項応答変数の場合、Minitabでは、各クラスを順番に事象として扱う複数のチャートが表示されます。

アウトオブバッグ検証

フォレスト内の特定のツリーに対して、アウトオブバッグデータの行に対するクラス投票は、単一ツリーの行の予測クラスです。アウトオブバッグデータの行の予測クラスは、フォレスト内のすべてのツリーで最も高い投票数を持つクラスです。アウトオブバッグデータの行の予測クラス確率は、クラスの投票数と行の総投票数の比率です。

アウトオブバッグデータの曲線では、グラフ上の各点は、個別の予測クラス確率を表します。最高の事象確率は、チャート上の最初の点で、左端に表示されます。他の確率は降順です。

次の手順に従って、グラフのx座標とy座標を見つけます。

  1. すべての個別事象確率をしきい値として使用します。ある特定のしきい値に関して、推定された事象確率がしきい値以上の場合は予測クラスとして1となり、それ以外の場合は0となります。次に、観測されたクラスを行とし、予測されたクラスを列として、すべての場合に対して2x2の表を形成し、各ターミナルノードに関連する偽陽性率と真陽性率を計算できます。偽陽性率は、チャートのx座標です。真正のレートはy座標です。

    たとえば、次の表に、2つの2水準のカテゴリ予測変数がある単純なモデルを要約するとします。これらの予測変数は、小数点以下2桁に丸められた4つの異なる事象確率を示します。

    A:順序 B:予測変数1 C:予測変数2 D:事象数 E:非事象数 F:試行回数 G:しきい値(適合事象確率)
    1 1 1 18 12 30 0.60
    2 1 2 25 42 67 0.37
    3 2 1 12 44 56 0.21
    4 2 2 4 32 36 0.11
    合計     59 130 189  

    次に、対応する4つの表と、それぞれの偽陽性率と真陽性率を小数点以下2桁で示します。

    表 1. しきい値 = 0.60.

    偽陽性率 = 12 / (12 + 118) = 0.09

    真陽性率 = 18 / (18 + 41) = 0.31

        予測値
        事象 非事象
    観測 事象 18 41
    非事象 12 118
    表 2. しきい値 = 0.37.

    偽陽性率 = (12 + 42) / 130 = 0.42

    真陽性率 = (18 + 25) / 59 = 0.73

        予測値
        事象 非事象
    観測 事象 43 16
    非事象 54 76
    表 3. しきい値 = 0.21.

    偽陽性率 = (12 + 42 + 44) / 130 = 0.75

    真陽性率 = (18 + 25 + 12) / 59 = 0.93

        予測値
        事象 非事象
    観測 事象 55 4
    非事象 98 32
    表 4. しきい値 = 0.11.

    偽陽性率 = (12 + 42 + 44 + 32) / 130 = 1

    真陽性率 = (18 + 25 + 12 + 4) / 59 = 1

        予測値
        事象 非事象
    観測 事象 59 0
    非事象 130 0

別のテストセット

アウトオブバッグの場合と同じ手順を使用しますが、テストセットのケースから事象確率を計算します。