受信者動作特性(ROC)曲線

このマクロは、モデルがどの程度適切に実行されるかを評価するため、2値ロジスティック(BLR)回帰分析の後の分析として次の3つの機能を実行します。
  1. 分類表を作成する
  2. 受信者動作特性(ROC)曲線を作成する
  3. 事象確率では、一意の予測変数値セットの最初のインスタンスだけでなく、各行の事象確率を保存する

マクロをダウンロードする

ダウンロードしたマクロの場所をMinitabが見つけられるようにします。[ツール] > [オプション] > [一般]を選択し、[マクロの位置]でマクロファイルを保存する場所を参照します。

重要

古いWebブラウザを使用している場合、[ダウンロード]ボタンをクリックしたときに、Minitabマクロと同じ.mac拡張子を使用するQuicktimeでファイルが開く場合があります。マクロを保存するには、[ダウンロード]ボタンを右クリックして[対象をファイルに保存]を選択します。

必須入力項目

  • 応答/度数フォーマットでの2値応答変数
  • 予測変数の1つ以上の列
  • データですでに実行済みの2値ロジスティック回帰分析時に計算された事象確率の列

2値ロジスティック回帰による事象確率を保存するには、メインダイアログボックスで[保存]をクリックし、[事象確率]を選択します。

オプション入力

FREQ C
2値ロジスティック回帰の実行時に度数列を指定した場合に使用します。たとえば、度数列としてC4を指定した場合、「FREQ C4」を発行します。
REFEVENT "テキスト"
2値ロジスティック回帰の実行時に参照事象を指定した場合に使用します。たとえば、2値応答変数に「合格」と「不合格」の値があり、参照事象を「合格」に設定した場合、「REFEVENT "合格"」を発行します。
FITSTORE C
分類表の作成に使用される適合値の保存列を指定する場合に使用します。2値ロジスティック回帰では、観測値の適合値は、その観測値の事象確率が0.5以上の場合は参照事象と等しくなります。
ROCSTORE C C C
ROC曲線の作成に使用されるデータを保存する場合に使用します。p値を保存する1つの列、各p値の感度と特異度の値を保存する2つの列の3列を指定します(ROC曲線では感度対1 - 特異度がプロットされます)。

マクロの実行

2値応答変数が列3にあり、2つの予測変数がC1とC2にあるとします。事象確率はC5に保存されます。マクロを実行するには、[編集] > [コマンドラインエディタ]を選択し、次のコマンドを入力します。

%ROCBLR C3;
MODEL C1 C2;
EPRO C5.

[コマンドを発行する]をクリックします。

追加情報

分類表とROC曲線

2値ロジスティック回帰モデルの適合性を測定する1つの基準として、モデル内の項(予測変数)が指定された場合に、2値応答を正確に予測できる能力があります。この能力は分類表で要約され、適合されたモデルが2つの応答値それぞれに対して応答を正しく分類した回数が集計されます。

たとえば、Minitabヘルプのトピック、「2値ロジスティック回帰の例」を見てみます。この例では、応答が「休息時脈拍」(「高い」または「低い」)で、予測変数が「体重」(連続変数)と「喫煙」(「はい」または「いいえ」の2つの値のカテゴリ変数)の2値ロジスティック回帰モデルを適合します。

データセットでは、1名の被験者が非喫煙者で体重は175ポンドです。この被験者の休息時脈拍が高いか低いかを予測するため、被験者の体重と喫煙者であるかどうか(喫煙者の場合は1、非喫煙者の場合0)が分析で生成される回帰式に代入されます。この結果は休息時脈拍が低い推定確率を表します(この例は「低い」が参照事象であるため)。

つまり、この推定係数では、体重が175ポンドの非喫煙者は92%の確率で休息時脈拍が低いことが推定されます。これは事象確率です。この確率は非常に高いため、この測定値は「低い」に分類できます。ここでは、推定確率に基づいて2つの値のうちのいずれかに分類しています。さらに、この特定の被験者で観測された実際の休息時脈拍も低くなっていました。したがって、この被験者に対する休息時脈拍の予測においてこのモデルは正確でした。

データセットのその他すべての観測値も同様に処理できますが、最初に事象確率の「カットオフ」値を決定する必要があります。最も明白なカットオフ値は0.5です。データセット内のすべての観測値において、事象確率が0.5よりも大きい場合は休息時脈拍を「低い」に分類し、事象確率が0.5よりも小さい場合は事象確率を「高い」に分類します。

最後に、予測された休息時脈拍を実際の休息時脈拍と比較し、これらの結果を分類表(非表示)にまとめます。

この表では、休息時脈拍が低く、事象確率が0.5より大きかった被験者は68名で、この分類は正確です。また、休息時脈拍が低く、事象確率が0.5より低かった被験者は2名で、この分類は不正確です。同様に、休息時脈拍が高かった2名の被験者に対しては、予測された休息時脈拍が正しく分類されています。ただし、休息時脈拍が高かった20名の被験者に対しては、予測された休息時脈拍では「低い」と誤って分類されています。したがって、モデルは休息時脈拍を「低い」と予測する傾向があると結論付けることができます。

モデルの精度を要約するために役立つ他の2つの統計量として、感度と特異度があります。感度は、被験者の実際の休息時脈拍が低い場合に、低い休息時脈拍をモデルがどの程度適切に予測するかを測定します。特異性は、被験者の実際の休息時脈拍が高い場合に、高い休息時脈拍をモデルがどの程度適切に予測するかを測定します。両方の統計量において、値が高いほど、モデルの測定値分類能力は高くなります。

この例では、感度 = 68 /70 ≅ 97%で、特異度 = 2/22 ≅ 9%です。

ただし、分類表はその観測値の分布に大きく依存し、誤った結論に導かれることがあります。分類表に固有の問題に関する完全で明確な詳細は、HosmerとLemeshowによる『Applied Logistic Regression』を参照してください。

2値ロジスティック回帰モデルの観測値を正確に分類する能力を評価するためのより適切な手段として、受信者動作特性(ROC)曲線があります。ROC曲線は、いくつかの分類表を作成し、0~1の範囲のカットオフ値に対して、各値の感度と特異度を計算することで作成されます。1 - 特異度に対する感度がプロットされることで、ROC曲線が作成されます。

ROC曲線の下の領域(AUC)は判別の測度で、ROC曲線の下の高い領域は、モデルが観測値の応答値を正確に予測できることを示します。

HosmerとLemeshowにより、AUC値の一般規則が提供されています。この規則に基づいて一般的なガイドラインを次に示します。

AUC = 0.5 判別不能(コインを投げるのと同様)
0.7 ≤ AUC < 0.8 許容できる判別
0.8 ≤ AUC < 0.9 優れた判別
AUC ≥ 0.9 きわめて優れた判別(ただし非常に稀)

このモデルのAUCは0.7より低いため、モデルの判別は適切ではないと結論付けることができます。

参考文献

D.W. Hosmer and S. Lemeshow (2000). Applied Logistic Regression. 第2版 John Wiley & Sons, Inc. Pp. 156-164.

A. Agresti (2002). Categorical Data Analysis. 第2版. John Wiley & Sons, Inc. Pp.228-230.

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください