2値ロジスティックモデルの当てはめ2値ロジスティック回帰の 適合度検定

適合度検定表のすべての統計量の定義と解釈について解説します。

逸脱度適合度検定

逸脱適合度検定は現在のモデルと完全モデルの間の誤差を評価します。

解釈

適合度検定を使用し、二項分布が予測できない方法で、予測される確率が観測される確率から離れた値であるかを判断します。適合度検定のp値が、選択した有意水準よりも低い場合、二項分布が予測できないように、予測確率が観測確率から逸脱した値になります。逸脱の一般的な原因は次の通りです。
  • 不適切なリンク関数
  • モデル内にある変数の高次項が省略されています
  • モデル内にはない予測変数が省略されています
  • 過分散

逸脱度が統計的に有意な場合、別のリンク関数を実行、あるいはモデル内の項を変更できます。

適合度統計量の多くは、ワークシートのデータの並べ方、1行当たりの試行回数が1回なのか複数回なのかに影響を受けます。逸脱度検定のp値では、1行当たりの試行回数が1回に配置されているデータの方が、試行回数が複数回のデータよりも低い傾向があり、一般的には、試行回数が少なくなるほどp値も減少します。

ホスマー-レメショウ検定はデータのフォーマットに左右されません。データの各行の試行回数がほとんどない場合、ホスマー-レメショウ検定は、データに対するモデルの適合度を示す指標として、信頼度が高まります。 詳細はデータフォーマットが2値ロジスティック回帰の適合値に与える影響を参照してください。

ピアソン適合度検定

ピアソンの適合度検定は現在のモデルと完全モデルの間の誤差を評価します。

解釈

適合度検定を使用し、二項分布が予測できない方法で、予測される確率が観測される確率から離れた値であるかを判断します。適合度検定のp値が、選択した有意水準よりも低い場合、二項分布が予測できないように、予測確率が観測確率から逸脱した値になります。逸脱の一般的な原因は次の通りです。
  • 不適切なリンク関数
  • モデル内にある変数の高次項が省略されています
  • モデル内にはない予測変数が省略されています
  • 過分散

逸脱度が統計的に有意な場合、別のリンク関数を実行、あるいはモデル内の項を変更できます。

適合度統計量の多くは、ワークシート内のデータの配置や各行で試行が1回なのか複数回なのかによって影響されます。ピアソン検定で使用されるカイ二乗分布の近似値はデータ内の行毎の期待事象数が少ないと不正確になります。このため、行毎に試行が1回のフォーマットになっているデータの場合、ピアソンの適合度検定は不正確になります。

ホスマー-レメショウ検定はデータのフォーマットに左右されません。データの各行の試行回数がほとんどない場合、ホスマー-レメショウ検定は、データに対するモデルの適合度を示す指標として、信頼度が高まります。 詳細はデータフォーマットが2値ロジスティック回帰の適合値に与える影響を参照してください。

ホスマー-レメショウ

ホスマー-レメショウの適合度検定は、事象と非事象の観測度数と期待度数を比較し、データに対するモデルの適合度を評価します。

解釈

適合度検定を使用し、二項分布が予測できない方法で、予測される確率が観測される確率から離れた値であるかを判断します。適合度検定のp値が、選択した有意水準よりも低い場合、二項分布が予測できないように、予測確率が観測確率から逸脱した値になります。逸脱の一般的な原因は次の通りです。
  • 不適切なリンク関数
  • モデル内にある変数の高次項が省略されています
  • モデル内にはない予測変数が省略されています
  • 過分散

逸脱度が統計的に有意な場合、別のリンク関数を実行、あるいはモデル内の項を変更できます。

ホスマー-レメショウ検定は他の適合度検定のように、データ内の行ごとの試行回数にも左右されません。データの各行の試行回数がほとんどない場合、ホスマー-レメショウ検定は、データに対するモデルの適合度を示す指標として、信頼度が高まります。

ホスマー-レメショウ検定で観測される頻度と期待される頻度

このモデルは、ホスマー-レメショウ検定で期待される度数を予測します。

解釈

ホスマー-レメショウ検定の観測された頻度と期待頻度を使用して、モデルのデータ適合度を説明するか、適合性が低い領域がないか調べます。

たとえば、項Xを持つモデルは、小さなp値を持つ適合度検定を生成し、モデルのデータ適合性は低くなることを示します。観測度数と期待度数の表では、事象確率が0.32~0.325のとき、期待値は、グループ4を除くすべてのグループの11以上の事象で異なります。

モデルにはXとX*Xが含まれる場合、適合度検定は大きなp値を持ちます。このデータは、二項分布が予測できないように、推定される確率が観測される確率から離れた値になることを示す根拠にはなりません。観測される事象数と期待される事象数の差はグループ4で最大になります。この差はおよそ7です。

Xの付いたモデル

係数

係数係数の標準誤差Z-値p値VIF
定数-0.8000.167-4.790.000 
X0.000920.002710.340.7351.00

適合度検定

検定自由度カイ二乗p値
逸脱 (deviance)378.500.000
ピアソン374.960.000
Hosmer-Lemeshow374.960.000

Hosmer-Lemeshow検定の観測および期待度数



事象非事象
グループ事象確率範囲観測値期待観測値期待
1(0.000, 0.310)1031.09069.0
2(0.310, 0.315)4031.56068.5
3(0.315, 0.320)6032.04068.0
4(0.320, 0.325)3532.56567.5
5(0.325, 0.330)1533.08567.0

X および X*X を含むモデル

係数

係数係数の標準誤差Z-値p値VIF
定数-2.1070.282-7.460.000 
X0.09040.01217.460.00011.97
X*X-0.0008890.000115-7.750.00011.97

適合度検定

検定自由度カイ二乗p値
逸脱 (deviance)23.780.151
ピアソン23.760.152
Hosmer-Lemeshow33.760.288

Hosmer-Lemeshow検定の観測および期待度数



事象非事象
グループ事象確率範囲観測値期待観測値期待
1(0.000, 0.108)1010.89089.2
2(0.108, 0.124)1512.48587.6
3(0.124, 0.401)4040.16059.9
4(0.401, 0.419)3541.96558.1
5(0.419, 0.548)6054.84045.2