受信機動作特性(ROC)曲線 2値ロジスティックモデルの当てはめおよび 2値ロジスティック回帰

ROC曲線は、検出力とも呼ばれる真陽性率 (TPR) をy軸にプロットします。ROC曲線は、第1種の過誤とも呼ばれる偽陽性率 (FPR) をx軸にプロットします。ROC曲線下の面積は、2値モデルが適切な分類器であるかどうかを示します。

解釈

ROC曲線下の面積の範囲は0.5から1です。2値モデルがクラスを完全に分離できる場合、曲線下の面積は1です。2値モデルがランダムな割り当てよりも良くクラスを分離できない場合、曲線下の面積は0.5です。

別のテストセットを使用しない場合、データセットによってROC曲線が作成されます。

この例では、テストの曲線下の面積は0.9405です。

検証手法を用いることで、Minitabは2つのROC曲線を作成します。一方の曲線はトレーニングデータ用、もう一方は検証データ用です。検証結果は、モデルが新しい観測値の応答値を十分に予測できるか、または反応変数と予測変数の関係を適切に要約できるかを示します。トレーニングの結果は通常、実際よりも理想的であり、参考に過ぎません。

検証結果のROC曲線下面積が訓練データのROC曲線下面積より大幅に小さい場合、モデルが過学習していることを示す可能性があります。過剰適合は、母集団には重要でない項がモデルに含まれている場合に起こります。モデルはトレーニングデータに即してしまい、母集団の予測に適さなくなる可能性があります。

この例では、トレーニングカーブがテストカーブよりも適合度が高いことを示しています。検定曲線のパフォーマンスは、新しいデータに対するモデルの性能をよりよく表しています。テストの曲線下の面積は0.8882です。