2値適合線プロットのモデル要約統計量

モデル要約表のすべての統計量の定義と解釈について解説します。

このトピックの内容

逸脱度R二乗
逸脱度：R二乗（調整済み）
AIC、AICc、BIC

逸脱度R二乗

逸脱度R²は通常、モデルが説明する応答変数の総逸脱度の比率と考えられます。

解釈

逸脱R²値が大きくなるほど、データへのモデル適合度は上がります。逸脱R²は必ず0～100%の間の値になります。

逸脱度R²は、モデルに新しい項を追加すると必ず大きくなります。たとえば、最適な5項モデルのR²は必ず、最適な4項モデルと少なくとも同じ大きさになります。したがって、逸脱度R²値は同じ大きさのモデルの比較に最も便利です。

適合度統計量は、データに対するモデルの適合度を測る1つの測度に過ぎません。モデルの値が望ましい場合でも残差プロットと適合度検定を確認してデータに対するモデルの適合度を評価する必要があります。

適合線プロットを使用して、異なる逸脱度R²をグラフで図示できます。1番目のプロットでは、応答の逸脱度のおよそ96%を説明するモデルが図示されます。2番目のプロットでは、応答の逸脱度の約60%を説明するモデルが図示されます。モデルが説明する逸脱度が大きいほど、データ点はより曲線に近いカーブを描きます。理論的には、モデルによって逸脱度の100%を説明できる場合、適合値は必ず観測値と等しくなり、すべてのデータ点が曲線上にプロットされることになります。

データの配列は逸脱度R²値に影響します。逸脱度R²値は通常、行ごとで単数回試行するデータよりも、行ごとで複数回試行するデータの方で高くなります。逸脱度R²値は同じデータフォーマットのモデル間でのみ比較可能です。詳細は、データフォーマットが2値ロジスティック回帰の適合値に与える影響を参照してください。

逸脱度：R二乗（調整済み）

調整済み逸脱R²はモデルで説明される応答の逸脱の比率で、観測値数と比較してモデルに含まれる予測変数に応じて調整されています。

解釈

異なる数の項を持つモデルを比較する場合は、調整済み逸脱度R²を使用します。逸脱度R²はモデルに項を追加すると必ず大きくなります。調整済み逸脱度R²値にはモデルに含まれる項の数が組み入れられるため、正しいモデルの選択に役立ちます。

たとえば、砕けたポテトチップスに影響を与える要因を調べるポテトチップス会社で働いています。予測変数を追加すると、次の結果が表示されます。

ステップ	ポテトの割合	冷却率	調理温度
0	X
1	X	X
3	X	X	X

最初のステップでは、統計的に有意な回帰モデルが生成されます。2番目のステップでは、モデルに冷却率が追加されて、調整済み逸脱度R²が上昇します。このことから冷却率がモデルを改善することがわかります。これらの結果から、調理温度はモデルを改善しないことがわかります。これらの結果から、調理温度はモデルを改善しないことがわかります。

データの配置は逸脱度R²値に影響します。逸脱度R²は通常、行ごとに試行が1回の場合のデータより複数の試行の場合のデータの方が高くなります。調整済み逸脱度R²は、同じデータフォーマットのモデルの適合度を比較する場合にのみ使用してください。詳細は、データフォーマットが2値ロジスティック回帰の適合値に与える影響を参照してください。

AIC、AICc、BIC

赤池情報量基準（AIC）、補正赤池情報量基準（AICc）、ベイズ情報量規準（BIC）は、モデルの適合度と含まれる項の数を説明する、モデルの相対的な質を測る測度です。

解釈

2値適合線プロットでは、情報基準を使用して、異なるリンク関数または予測変数の適合値と比較できます。小さい値が好ましいと考えられます。ただし、最小値を持つモデルは必ずしもデータに良好に適合しません。検定と残差プロットも使用して、データに対するモデルの適合度を評価してください。