2値ロジスティックモデルを適合の適合度検定

適合度検定表のすべての統計量の定義と解釈について解説します。

逸脱度適合度検定

逸脱適合度検定は現在のモデルと完全モデルの間の誤差を評価します。

解釈

適合度検定を使用し、二項分布が予測できない方法で、予測される確率が観測される確率から離れた値であるかを判断します。適合度検定のp値が、選択した有意水準よりも低い場合、二項分布が予測できないように、予測確率が観測確率から逸脱した値になります。逸脱の一般的な原因は次の通りです。
  • 不適切なリンク関数
  • モデル内にある変数の高次項が省略されています
  • モデル内にはない予測変数が省略されています
  • 過分散

逸脱度が統計的に有意な場合、別のリンク関数を実行、あるいはモデル内の項を変更できます。

2値ロジスティック回帰では、データのフォーマットは各行ごとの試行の回数が変わるため、p値に影響を及ぼします。 通常、逸脱検定のp値は行ごとの試行数が減るにつれて小さくなります。 Hosmer-Lemeshow検定はデータのフォーマットに左右されません。 データの各行の試行回数がほとんどない場合、Hosmer-Lemeshow検定は、データに対するモデルの適合度を示す指標として、信頼度が高まります。 詳細はデータフォーマットが2値ロジスティック回帰の適合値に与える影響を参照してください。

ピアソン適合度検定

ピアソンの適合度検定は現在のモデルと完全モデルの間の誤差を評価します。

解釈

適合度検定を使用し、二項分布が予測できない方法で、予測される確率が観測される確率から離れた値であるかを判断します。適合度検定のp値が、選択した有意水準よりも低い場合、二項分布が予測できないように、予測確率が観測確率から逸脱した値になります。逸脱の一般的な原因は次の通りです。
  • 不適切なリンク関数
  • モデル内にある変数の高次項が省略されています
  • モデル内にはない予測変数が省略されています
  • 過分散

逸脱度が統計的に有意な場合、別のリンク関数を実行、あるいはモデル内の項を変更できます。

2値ロジスティック回帰では、データのフォーマットは各行ごとの試行の回数が変わるため、p値に影響を及ぼします。 ピアソン検定で使用する近似カイ二乗分布は、データに含まれる行ごとの事象の期待数が小さい場合は不正確になります。それゆえ、データのフォーマットが2値応答/度数の場合のピアソンの適合度検定は不正確となります。 Hosmer-Lemeshow検定はデータのフォーマットに左右されません。 データの各行の試行回数がほとんどない場合、Hosmer-Lemeshow検定は、データに対するモデルの適合度を示す指標として、信頼度が高まります。 詳細はデータフォーマットが2値ロジスティック回帰の適合値に与える影響を参照してください。

ホスマー-レメショウ

Hosmer-Lemeshowの適合度検定は、事象と非事象の観測度数と期待度数を比較しデータに対するモデルの適合度を評価します。

解釈

適合度検定を使用し、二項分布が予測できない方法で、予測される確率が観測される確率から離れた値であるかを判断します。適合度検定のp値が、選択した有意水準よりも低い場合、二項分布が予測できないように、予測確率が観測確率から逸脱した値になります。逸脱の一般的な原因は次の通りです。
  • 不適切なリンク関数
  • モデル内にある変数の高次項が省略されています
  • モデル内にはない予測変数が省略されています
  • 過分散

逸脱度が統計的に有意な場合、別のリンク関数を実行、あるいはモデル内の項を変更できます。

Hosmer-Lemeshow検定は他の適合度検定のように、データ内の行ごとの試行回数にも左右されません。 データの各行の試行回数がほとんどない場合、Hosmer-Lemeshow検定は、データに対するモデルの適合度を示す指標として、信頼度が高まります。

ホスマー-レメショウ検定で観測される頻度と期待される頻度

このモデルは、ホスマー-レメショウ検定で期待される度数を予測します。

解釈

ホスマー-レメショウ検定の観測された頻度と期待頻度を使用して、モデルのデータ適合度を説明するか、適合性が低い領域がないか調べます。

たとえば、項Xを持つモデルは、小さなp値を持つ適合度検定を生成し、モデルのデータ適合性は低くなることを示します。観測度数と期待度数の表では、事象確率が0.32~0.325のとき、期待値は、グループ4を除くすべてのグループの11以上の事象で異なります。

モデルにはXとX*Xが含まれる場合、適合度検定は大きなp値を持ちます。このデータは、二項分布が予測できないように、推定される確率が観測される確率から離れた値になることを示す根拠にはなりません。観測される事象数と期待される事象数の差はグループ4で最大になります。この差はおよそ7です。

2値ロジスティック回帰:事象 対 X

係数 係数の標 項 係数 準誤差 VIF 定数 -0.800 0.167 X 0.00092 0.00271 1.00
適合度検定 検定 自由度 カイ二乗 p値 逸脱 (deviance) 3 78.50 0.000 ピアソン 3 74.96 0.000 Hosmer-Lemeshow 3 74.96 0.000
Hosmer-Lemeshow検定の観測および期待度数 グ ルー 事象 非事象 プ 事象確率範囲 観測値 期待 観測値 期待 1 (0.000, 0.310) 10 31.0 90 69.0 2 (0.310, 0.315) 40 31.5 60 68.5 3 (0.315, 0.320) 60 32.0 40 68.0 4 (0.320, 0.325) 35 32.5 65 67.5 5 (0.325, 0.330) 15 33.0 85 67.0

2値ロジスティック回帰:事象 対 X

応答情報 変数 値 計数 事象名 事象 事象 160 事象 非事象 340 試行 合計 500
係数 係数の標 項 係数 準誤差 VIF 定数 -2.107 0.282 X 0.0904 0.0121 11.97 X*X -0.000889 0.000115 11.97
適合度検定 検定 自由度 カイ二乗 p値 逸脱 (deviance) 2 3.78 0.151 ピアソン 2 3.76 0.152 Hosmer-Lemeshow 3 3.76 0.288
Hosmer-Lemeshow検定の観測および期待度数 グ ルー 事象 非事象 プ 事象確率範囲 観測値 期待 観測値 期待 1 (0.000, 0.108) 10 10.8 90 89.2 2 (0.108, 0.124) 15 12.4 85 87.6 3 (0.124, 0.401) 40 40.1 60 59.9 4 (0.401, 0.419) 35 41.9 65 58.1 5 (0.419, 0.548) 60 54.8 40 45.2
本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください