2値ロジスティックモデルの当てはめの受信者動作特性(ROC)曲線

ROC曲線は、y軸に検出力とも呼ばれる真陽性率 (TPR) をプロットします。ROC曲線は、x軸に第1種の過誤とも呼ばれる偽陽性率 (FPR) をプロットします。ROC曲線下の面積は、2値モデルが適切な分類器であるかどうかを示します。

解釈

ROC曲線下の面積の値の範囲は0.5から1です。2値モデルがクラスを完全に分類できる場合、曲線下の面積は1になります。2値モデルがランダムな割り当てよりも良くクラスを分類できない場合、曲線の下の面積は0.5になります。

別のテストセットを使用しない場合、MinitabはデータセットでROC曲線を作成します。

この例では、テストの曲線下の面積は0.9405 です。

検証法を使用すると、2つのROC曲線が作成されます。1つの曲線はトレーニングデータ用で、もう1つは検証データ用です。検証結果は、モデルが新しい観測値の応答値を適切に予測できるか、または応答変数と予測変数の関係を適切に要約できるかを示します。トレーニングの結果は、通常、実際よりも理想的であり、参考に過ぎません。

k分割のROC曲線下の面積がROC曲線下の面積より大幅に小さい場合、モデルが過剰適合していることを示す可能性があります。過剰適合は、モデルが母集団には重要でない項を含む場合に起こります。そのモデルはサンプルデータに即してしまい、母集団の予測に適さなくなる可能性があります。

この例では、トレーニングの曲線はテストの曲線よりも良い適合を示しています。テストの曲線のパフォーマンスは、通常、新しいデータに対するモデルのパフォーマンスをより適切に表現したものです。テストの曲線下の面積は0.8882です。