2値ロジスティックモデルを適合の主要な結果を解釈する

2値ロジスティックモデルを解釈するには、次の手順を実行します。主要な出力は、p値、係数、R2、適合度検定です。

ステップ1: モデルにおける応答と項の間の関係が統計的に有意かどうか判断する

モデルにおける応答と各項の間の関係が統計的に有意かどうか判断するには、項のp値と有意水準を比較して帰無仮説を評価します。この帰無仮説は、項と応答に関連性がないという仮定です。通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が適切です。0.05の有意水準は、実際には関連性がない場合でも、関連性が存在すると結論付けてしまうリスクが5%であるということを示します。
p値 ≤ α:関連性は統計的に有意です
p値が有意水準以下の場合は、応答変数と項の間に統計的に有意な関連性が存在すると結論付けることができます。
p値 > α:その関連性は統計的に有意ではありません
p値が有意水準より大きい場合は、応答変数と項の間に統計的に有意な関連性があると結論付けることはできません。項を持たないモデルを再適合したいと考えるかもしれません。
応答との間に統計的に有意な関連性がない予測変数が複数存在する場合は、一度に1つずつ項を削除することによってモデルを縮約できます。モデルからの項の削除の詳細は、モデルの縮約化を参照してください。
モデル項が統計的に有意な場合、解釈は項のタイプによって異なります。解釈は次のとおりです。
  • 連続予測変数が有意な場合、予測変数の係数は0ではないと結論できます。
  • カテゴリ予測変数が有意である場合、全ての因子水準が同じ確率を持つわけではないと結論できます。
  • 交互作用項が有意な場合は、予測変数と事象の確率の関係が、その項の他の予測変数に依存すると結論できます。
  • 多項式項が有意な場合は、予測変数と事象の確率の関係が、予測変数の大きさに依存すると結論できます。
逸脱 (deviance)表 要因 自由度 調整偏差 調整平均 カイ二乗 p値 回帰 1 22.7052 22.7052 22.71 0.000 投薬量(mg) 1 22.7052 22.7052 22.71 0.000 誤差 4 0.9373 0.2343 合計 5 23.6425
係数 係数の標 項 係数 準誤差 VIF 定数 -5.25 1.99 投薬量(mg) 3.63 1.30 1.00
連続予測変数のオッズ比 オッズ比 95%信頼区間 投薬量(mg) 37.5511 (2.9645, 475.6528)
主要な結果: p値、係数

これらの結果では、投薬量は、0.05の有意水準で統計的に有意になります。投薬量の変化は、事象が起こる確率の変化と関係があると結論できます。

係数を評価して、予測変数の変化が事象が発生する可能性が高いか低いかを判断します。係数と確率の関係は、リンク関数を含む分析の方法によって変わります。一般に、係数が正の場合、予測変数が増加するにつれて事象の可能性は高くなることを示します。係数が負の場合、予測変数が増加するにつれて、事象の可能性は低くなることを示します。詳細は2値ロジスティックモデルを適合の係数表と回帰式を参照してください。

投薬量の係数は3.63であり、投薬量が多くなるほど事象が起こる確率が高くなるという関係にあります。

交互作用項が統計的に有意な場合、予測変数と応答の関係は他の予測変数の水準で変わります。こうしたケースでは、交互作用の影響を考慮せずに主要な影響を解釈すべきではありません。モデルの主要な影響、交互作用の影響、および曲率をより理解するには、要因プロット応答の最適化機能を参照してください。

ステップ2: 予測変数の効果を理解する

オッズ比を使用して、予測変数の影響を理解します。オッズ比の解釈は、予測変数がカテゴリ変数か連続変数かによって変わります。 Minitabは、モデルがlogitリンク関数を使用する場合にオッズ比を計算します。
連続予測変数のオッズ比

オッズ比が1より大きい場合、予測変数が増加するにつれて事象が発生する可能性が高くなることを示しています。オッズ比が1未満の場合、予測変数が増加するにつれて事象が発生する可能性が低くなることを示しています。

2値ロジスティック回帰:バクテリアなし 対 投薬量(mg)

連続予測変数のオッズ比 変更ユ ニット オッズ比 95%信頼区間 投薬量(mg) 0.5 6.1279 (1.7218, 21.8095)
主要な結果:オッズ比

これらの結果では、モデルは薬の投与水準を使用して、成人の体内のバクテリアの有無を予測します。各錠剤に0.5mgの投与量があるので、研究者は0.5mgの単位変化を使用します。オッズ比はおよそ6です。成人が服用する錠剤が追加されるたびに、患者がバクテリアを持たないオッズ比は約6倍に増加します。

カテゴリ予測変数のオッズ比

カテゴリ変数のオッズ比では、2つの異なる水準の予測変数で発生する事象のオッズ比を比較します。Minitabでは、水準Aと水準Bの2つの列に水準をリスト化することにより比較を設定します。水準Bは因子の参照水準です。オッズ比が1より大きい場合、水準Bで事象が発生する可能性が低くなることを示しています。オッズ比が1未満の場合、水準Bで事象が発生する可能性が高くなることを示しています。分析の参照水準を選択する方法に関する詳細は2値ロジスティックモデルを適合のコード体系を指定するを参照してください。

2値ロジスティック回帰:Cancellation 対 月

カテゴリ予測変数のオッズ比 水準A 水準B オッズ比 95%信頼区間 月 2 1 1.1250 (0.0600, 21.0867) 3 1 3.3750 (0.2897, 39.3222) 4 1 7.7143 (0.7460, 79.7712) 5 1 2.2500 (0.1107, 45.7226) 6 1 6.0000 (0.5322, 67.6495) 3 2 3.0000 (0.2547, 35.3340) 4 2 6.8571 (0.6556, 71.7201) 5 2 2.0000 (0.0976, 41.0034) 6 2 5.3333 (0.4679, 60.7972) 4 3 2.2857 (0.4103, 12.7323) 5 3 0.6667 (0.0514, 8.6389) 6 3 1.7778 (0.2842, 11.1200) 5 4 0.2917 (0.0252, 3.3719) 6 4 0.7778 (0.1464, 4.1326) 6 5 2.6667 (0.2124, 33.4861) 水準Bと比べた水準Aのオッズ比
主要な結果:オッズ比

これらの結果では、カテゴリ予測変数はホテルの繁忙期が始まる月です。応答は宿泊客が予約をキャンセルするかどうかです。水準Aが月4かつ水準Bが月1のときにオッズ比は最大になり、約8となります。これは、来客が月4のときに予約をキャンセルするオッズ比が、月1のときに予約をキャンセルするオッズ比よりも約8倍高いことを示しています。

詳細は2値ロジスティックモデルを適合のオッズ比を参照してください。

ステップ3: データに対するモデルの適合度を判断する

どの程度モデルがデータに適合するかを判断するには、モデル要約表の統計量を調べます。

2値ロジスティック回帰では、データのフォーマットがほとんどのモデル要約と適合度統計量に影響します。AICおよびHosmer-Lemeshow検定は、データフォーマットに影響されないため、異なるフォーマット間で比較可能です。詳細はデータフォーマットが2値ロジスティック回帰の適合値に与える影響を参照してください。

逸脱度R二乗

逸脱R2値が大きくなるほど、データへのモデル適合度は上がります。逸脱R2は必ず0~100%の間の値になります。

逸脱R2はモデルに新しい予測変数を追加すると必ず大きくなります。たとえば、最適な5予測変数モデルのR2は必ず、最適な4予測変数モデルと少なくとも同じ大きさになります。したがって、逸脱R2値は同じ大きさのモデルの比較に最も便利です。

2値ロジスティック回帰では、データのフォーマットは逸脱R2値に影響します。逸脱R2は通常、データのフォーマットが事象/試行の場合に高くなります。逸脱R2値は同じデータフォーマットのモデル間でのみ比較可能です。

逸脱R2は、データに対するモデルの適合度を測る1つの測度にすぎません。モデルのR2が大きくても残差プロットと適合度検定を確認してデータに対するモデルの適合度を評価する必要があります。

逸脱度R二乗(調整済み)

異なる数の予測変数を持つモデルを比較する場合は、調整済み逸脱R2を使用します。逸脱R2はモデルに予測変数を追加すると必ず大きくなります。調整済み逸脱R2値にはモデルに含まれる予測変数の数が組み入れられるため、正しいモデルの選択に役立ちます。

赤池情報量基準(AIC)

異なるモデルを比較する際はAICを使用します。AICが小さいほどデータへのモデルの適合度は上がります。ただし、予測変数セットに対して最小のAICを持つモデルは必ずしもデータに良好に適合しません。適合度検定と残差プロットも使用して、データに対するモデルの適合度を評価してください。

モデル要約 逸脱 逸脱 (deviance) (deviance) R二乗 (調 R二乗 整済み) AIC 96.04% 91.81% 21.68
主な結果: 逸脱度、R二乗、逸脱度R二乗(調整済み)、AIC

これらの結果を基に、モデルは、応答変数における変動のおよそ96.04%を説明づけます。こうしたデータの場合、逸脱度R2の値は、モデルがデータに十分に適合することを示しています。追加モデルが異なる予測変数と適合する場合、調整済み逸脱度R2の値とAICの値を使用して、追加モデルがどの程度データに適合するかを比較します。

ステップ4: データに適合しないモデルかどうかを判断する

適合度検定を使用し、二項分布が予測できない方法で、予測される確率が観測される確率から離れた値であるかを判断します。適合度検定のp値が、選択した有意水準よりも低い場合、二項分布が予測できないように、予測確率が観測確率から逸脱した値になります。逸脱の一般的な原因は次の通りです。
  • 不適切なリンク関数
  • モデル内にある変数の高次項が省略されています
  • モデル内にはない予測変数が省略されています
  • 過分散

逸脱度が統計的に有意な場合、別のリンク関数を実行、あるいはモデル内の項を変更できます。

2値ロジスティック回帰では、データのフォーマットは各行ごとの試行の回数が変わるため、p値に影響を及ぼします。

  • 逸脱度: データフォーマットが2値応答/度数の場合、データフォーマットが事象/試行の場合に比べて逸脱検定のp値が低くなる傾向にあります。データフォーマットが2値応答/度数の場合は、Hosmer-Lemeshow検定の結果の信頼度がより高くなります。
  • ピアソン: ピアソン検定で使用する近似カイ二乗分布は、データに含まれる行ごとの事象の期待数が小さい場合は不正確になります。それゆえ、データのフォーマットが2値応答/度数の場合のピアソンの適合度検定は不正確となります。
  • ホスマー-レメショウ: Hosmer-Lemeshow検定は他の適合度検定のように、データ内の行ごとの試行回数にも左右されません。 データの各行の試行回数がほとんどない場合、Hosmer-Lemeshow検定は、データに対するモデルの適合度を示す指標として、信頼度が高まります。
応答情報 変数 値 計数 事象名 事象 事象 160 事象 非事象 340 試行 合計 500
適合度検定 検定 自由度 カイ二乗 p値 逸脱 (deviance) 2 3.78 0.151 ピアソン 2 3.76 0.152 Hosmer-Lemeshow 3 3.76 0.288
事象・試行フォーマットの主要な結果: 応答情報、逸脱度検定、ピアソン検定、ホスマー-レメショウ検定

これらの結果では、応答情報表は変数列の事象と試行を表示します。これらのラベルは、データが事象・試行フォーマットにあることを示します。すべての適合度検定のp値は、通常の有意水準である0.05よりも大きいです。この検定は、二項分布が予測できないように、予測される確率が観測される確率から離れた値になることを示す根拠にはなりません。

応答情報 変数 値 計数 Y 事象 160 (事象) 非事象 340 合計 500
適合度検定 検定 自由度 カイ二乗 p値 逸脱 (deviance) 497 552.03 0.044 ピアソン 497 504.42 0.399 Hosmer-Lemeshow 3 3.76 0.288
2値応答・度数フォーマットの主要な結果: 応答情報、逸脱度検定、ピアソン検定、ホスマー-レメショウ検定

これらの結果のデータが同じ場合、応答情報表は変数列のYを表示します。このラベルは、データが2値応答・度数フォーマットであることを示します。逸脱度検定のp値は通常の有意水準である0.05よりも低くなりますが、ホスマー-レメショウ検定は最も信頼できる検定です。ホスマー-レメショウ検定は、二項分布が予測できないように、予測される確率が観測される確率から離れた値になることを示す根拠にはなりません。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください