2値ロジスティックモデルの当てはめの係数表と回帰式

係数表と回帰式のすべての統計量の定義と解釈について解説します。

係数

回帰係数は、予測変数と応答変数の関係の、サイズと方向を表します。係数とは、回帰式において項の値に乗じられる数です。

解釈

係数を使用して、予測変数の変化が事象が発生する可能性が高いか低いかを判断します。予測変数の推定係数は、予測変数の1単位分の変化に対するリンク関数の変化を表し、モデル内の他の予測変数は固定されます。結果の係数と確率の関係は、リンク関数や応答の参照事象、カテゴリ予測変数の参照水準を含む、分析の方法によって変わります。一般に、係数が正の場合は事象の可能性は高くなり、係数が負の場合は事象の可能性は低くなります。推定係数が0に近い場合、予測変数の影響は小さいことを示します。

カテゴリ予測変数の推定された係数は、予測変数の参照水準と比較して解釈します。正の係数は、事象が起こる可能性が、因子の参照水準よりも予測変数の水準の方が大きいことを示します。負の係数は、事象が起こる可能性が、参照水準よりも予測変数の水準の方が小さいことを示します。

logitリンク関数の解釈

logitリンクは推定係数の最も自然な解釈を提供するため、Minitabのデフォルトリンクになっています。解釈では、参照事象のオッズがP(事象あり)かP(事象なし)であるという事実を使用し、他の予測変数が定数のままであると仮定します。対数オッズが大きくなるほど、参照事象の可能性は高くなります。したがって、係数が正の場合、事象の可能性は高くなり、係数が負の場合、事象の可能性は低くなります。異なるタイプの予測変数の解釈の要約は以下になります。

連続予測変数
連続予測変数の係数は、予測変数の単位ごとの増加に対する参照事象のオッズの自然対数の推定変化です。たとえば、秒単位の時間の係数が1.4の場合、オッズの自然対数は、秒が増加するごとに1.4ずつ増加します。
推定された係数はオッズ比(2つの見込み間の比)を計算するためにも使用されます。オッズ比を計算するため、予測変数の係数をべき乗します。結果は、予測変数がx+1の場合とxの場合とを比較するオッズ比になります。たとえば、キログラムを単位とする質量のオッズ比が0.95の場合、キログラムが追加されるごとに事象の確率は約5%ずつ減少します。
連続予測変数では、オッズの解釈は、オッズ比の解釈よりも意味あるものになることがあります。
1、0コーディングを使用するカテゴリ予測変数
係数は、参照水準から係数の水準まで変化させた場合、オッズの自然対数の推定変化になります。たとえば、カテゴリ変数には、「早い」と「遅い」という水準があり、参照水準は「遅い」に該当するとします。「早い」の係数が1.3の場合、「遅い」から「早い」に変化すると、事象のオッズの自然対数は1.3増加します。
推定された係数はオッズ比(2つの見込み間の比)を計算するためにも使用されます。オッズ比を計算するため、水準の係数をべき乗します。結果は、水準と参照水準とを比較するオッズ比になります。たとえば、カテゴリ変数には、「ハード」と「ソフト」という水準があり、参照水準は「ソフト」に該当するとします。「ハード」のオッズ比が0.5の場合、「ソフト」から「ハード」へ変化すると、事象のオッズ比は50%増加します。
1、0、−1コーディングを使用するカテゴリ予測変数
係数は、オッズの自然対数の平均から係数の水準まで変化させた場合、オッズの自然対数の推定変化になります。たとえば、カテゴリ変数には、「変化前」と「変化後」の水準があるとします。変化後の係数が−2.1の場合、変数が変化後と等しくなると、事象のオッズの自然対数は平均から2.1減少します。
推定された係数はオッズ比を計算するためにも使用されます。べき乗する値を見つけるには、比較する係数を減算します。たとえば、カテゴリ変数には、赤、黄、緑の水準があるとします。赤と黄のオッズ比を計算するには、黄の係数から赤の係数を引き、その結果をべき乗します。オッズ比が1.02の場合、赤から黄へ変化すると、事象のオッズは2%増加します。

係数の標準誤差

係数の標準誤差により、同じ母集団から繰り返しサンプルを抽出する場合に得られる係数推定値間の変動を推定します。計算では、サンプルを繰り返し抽出する場合はサンプルのサイズと係数の推定値は変わらないと仮定します。

解釈

係数の標準誤差を使用して、係数の推定値の精度を測定します。標準誤差が小さいほど、推定値の精度が高くなります。

係数の信頼区間(95% CI)

信頼区間(CI)は、モデル内の各項の係数の真の値が含まれる可能性のある値の範囲です。信頼区間の計算では、正規分布を使用します。散布すのサイズが十分に大きく、サンプルの係数の分布が正規分布に従う場合、信頼区間は正確です。

データのサンプルはランダムであるため、1つの母集団からの2つのサンプルの信頼区間が同一である可能性は低くなります。しかし、ランダムなサンプルを何度も繰り返して測定すると、得られた信頼区間の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間の割合(%)を区間の信頼水準と言います。

信頼区間は、次の2つの部分で構成されています。
点推定
この単一値は、サンプルデータを使用して母数を推定するためのものです。信頼区間は、点推定を中心にして得られます。
誤差幅
誤差幅は、信頼区間の幅の定義に使用され、サンプル、サンプルサイズ、および信頼水準における観測された変動性によって決まります。信頼区間の上限を計算するには、誤差幅を点推定に加算します。信頼区間の下限を計算するには、点推定から誤差幅を減算します。

解釈

信頼区間を使用して、モデルの各項の母集団係数の推定値を評価します。

たとえば、信頼水準が95%の場合、信頼区間に母集団係数の値が含まれていることが95%信頼できます。信頼区間は、結果の実質的な有意性を評価するのに役立ちます。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて有用でない場合は、サンプルサイズを増やすことを検討します。

Z値

Z値は、係数とその標準誤差の比率を測定するワルド検定の検定統計量です。

解釈

MinitabではZ値を使用してp値を計算し、これに基づいて項およびモデルの統計的有意性を判断します。サンプルサイズが十分に大きく、サンプルの係数の分布が正規分布に従う場合、ワルド検定は正確です。

Z値が0から十分に離れている場合は、係数の推定値が、0から統計的に異なるほど十分に大きくかつ正確であることを示しています。逆にZ値が0に近い場合は、係数の推定値が小さすぎる、または精度が低すぎて、項が応答に対して影響を及ぼすとは確信できないことを示しています。

逸脱表で表示される検定は尤度比検定です。係数表の拡張表に表示されるのはワルドの近似検定です。サンプルが小さい場合、尤度比検定のほうがワルドの近似検定よりも正確になります。

p値

p値は帰無仮説を棄却するための証拠を測定する確率です。確率が低いほど、帰無仮説を棄却する強力な証拠となります。

解釈

モデルにおける応答と各項の間の関係が統計的に有意かどうか判断するには、項のp値と有意水準を比較して帰無仮説を評価します。この帰無仮説は、項の係数は0に等しく、項と応答に関連性がないという仮定です。通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が適切です。0.05の有意水準は、実際には関連性がない場合でも、関連性が存在すると結論付けてしまうリスクが5%であるということを示します。
p値 ≤ α:関連性は統計的に有意である
p値が有意水準以下の場合は、応答変数と項の間に統計的に有意な関連性が存在すると結論付けることができます。
p値 > α:その関連性は統計的に有意ではない
p値が有意水準より大きい場合は、応答変数と項の間に統計的に有意な関連性があると結論することはできません。項を持たないモデルを再適合したいと考えるかもしれません。
応答との間に統計的に有意な関連性がない予測変数が複数存在する場合は、一度に1つずつ項を削除することによってモデルを縮約できます。モデルからの項の削除の詳細は、モデルの縮約化を参照してください。
モデル項が統計的に有意な場合、解釈は項のタイプによって異なります。解釈は以下のとおりです。
  • 連続予測変数が有意な場合、予測変数の係数は0ではないと結論できます。
  • カテゴリ変数が有意な場合、結論はカテゴリ変数のコード化に左右されます。(0, 1)コード化を使用すると、その水準の確率が参照水準の確率とは異なると結論付けることができます。(-1, 0, +1,)コード化を使用すると、その水準の確率がベースライン水準の確率とは異なると結論付けることができます。
  • 交互作用項が有意な場合は、予測変数と事象確率の関係がその項の他の予測変数に依存すると結論できます。
  • 多項式の項が有意な場合は、予測変数と事象確率の関係がその予測変数の重要度に依存すると結論付けることができます。

VIF

分散拡大係数(VIF)は、係数の分散が多重共線性により上昇する量を示します。

解釈

VIFを使用して、回帰分析に存在する多重共線性の量を説明します。多重共線性は、回帰係数の分散性を増大させ、各予測変数の応答に与えるそれぞれの影響度を評価するのを困難にしたりするため、問題の原因となります。

以下のガイドラインに従ってVIFを解釈します。
VIF 多重共線性
VIF = 1 なし
1 < VIF < 5
VIF > 5
VIFの値が5よりも大きい場合、多重共線性が厳格なため、回帰係数の推定が不十分であることを示します。

多重共線性とその効果を緩和する方法の詳細は、回帰の多重共線性を参照してください。

コード化係数

連続変数を標準化する場合、係数は、標準化された変数での単位当たり変化量を表します。通常は、多重共線性を減少させるため、または変数を一般的な尺度に変換するため、連続予測変数を標準化します。

解釈

コード化係数をどのように使用するかは、標準化手法によって変わります。係数の正しい解釈も、リンク関数のような分析の態様によって変わります。係数が正の場合、事象の可能性は高くなります。係数が負の場合、事象の可能性は低くなります。推定係数が0に近い場合、予測変数の影響は小さいことを示します。

低水準や高水準を指定し、-1や+1としてコード化する

各係数は、予測変数がコード化尺度の単位ごとに変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の場合、コード化により0は50℃、1は100℃に設定されます。時間の場合、コード化により、0は30秒、1は60秒に設定されます。温度の係数は50℃の増加を表します。時間の係数は30秒の増加を表します。

平均を引き、標準偏差で割る

各係数は、予測変数が1標準逸脱度ずつ変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の標準偏差は3.7℃です。時間の標準偏差は18.3秒です。温度の係数は3.7℃の増加を表します。時間の係数は18.3秒の増加を表します。

平均を引く

各係数は、予測変数が1ごとに変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の係数は1℃の増加を表します。時間の係数は1秒の増加を表します。

標準偏差で割る

各係数は、予測変数が1標準逸脱度ずつ変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の標準偏差は3.7℃です。時間の標準偏差は18.3秒です。温度の係数は3.7℃の増加を表します。時間の係数は18.3秒の増加を表します。

指定された値を引き、もう1つの値で割る

各係数は、予測変数が除数の値ごとに変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは長さにはメートル、電流にはアンペアを使用します。除数は1,000です。長さの係数は1ミリメートルの増加を表します。電流の係数は1ミリアンペアの増加を表します。

logitリンク関数の解釈

logitリンク関数は推定係数の最についての自然な解釈を提供するため、Minitabのデフォルトリンクになっています。logitリンク関数の場合、変換された応答変数は事象のオッズの自然対数です。別の標準化手法の解釈の要約は以下の通りです。
低い水準や高い水準を指定して-1や+1をコード化する

各係数は、予測変数がコード化尺度の単位ごとに変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは温度にはセ氏を使用します。コード化により0は50℃、1は100℃に設定されます。温度の係数は50℃の増加を表します。温度の係数は1.8です。温度が1コード化単位ごとに増加すると、温度は50℃ずつ上昇し、オッズの自然対数は1.8ずつ上昇します。

平均を引き、標準偏差で割る

各係数は、予測変数が1標準逸脱度ずつ変化するものとして、事象のオッズの自然対数の期待変化量を表します。

たとえば、モデルでは温度にはセ氏を使用します。温度の標準偏差は3.7℃です。温度の係数は1.4です。温度が1コード化単位ごとに増加すると、温度は3.7℃ずつ上昇し、オッズの自然対数は1.4ずつ上昇します。

平均を引く

各係数は、予測変数が1ずつ変化するものとして、事象のオッズの自然対数の期待変化を表します。

たとえば、モデルでは温度にはセ氏を使用します。温度の係数は1℃の増加を表します。温度の係数は2.3です。温度が1コード化単位ごとに増加すると、温度は1℃ずつ上昇し、オッズの自然対数は2.3ずつ上昇します。

標準偏差で割る

各係数は、予測変数が1標準逸脱度ずつ変化するものとして、事象のオッズの自然対数の期待変化量を表します。

たとえば、モデルでは温度にはセ氏を使用します。温度の標準偏差は3.7℃です。温度の係数は1.4です。温度が1コード化単位ごとに増加すると、温度は3.7℃ずつ上昇し、オッズの自然対数は1.4ずつ上昇します。

指定された値を引き、もう1つの値で割る

各係数は、予測変数が除数の値ごとに変化するものとして、事象のオッズの自然対数の期待変化量を表します。

たとえば、モデルでは長さにはメートル、電流にはアンペアを使用します。除数は1,000です。 長さの係数は1ミリメートルの増加を表します。長さの係数は5.6です。長さが1コード化単位ごとに増加すると、長さは1ミリメートルずつ上昇し、オッズの自然対数は5.6ずつ上昇します。電流の係数は1ミリアンペアの増加を表します。

回帰式

2値ロジスティック回帰では、2種類の回帰式が表示されます。最初の式は、事象確率と変換された応答を関連づけます。最初の式の形は、リンク関数によって変わります。

2番目の式は、予測変数と変換された応答を関連づけます。モデルに連続予測変数とカテゴリ予測変数の両方がある場合、2番目の式は、カテゴリの組み合わせごとに分離できます。表示される式の数を選択する方法の詳細は、2値ロジスティックモデルの当てはめで表示する結果を選択するを参照してください。

解釈

これらの式を使用して、応答と予測変数の関係を調べます。

たとえば、顧客が製品を購入するかどうかを予測するモデルには以下の項が含まれます。
  • 顧客の収入
  • 顧客に子どもがいるかどうか
  • これら2つの予測変数の交互作用

最初の式は、logitリンク関数を基に事象確率と変換された応答の関係を表示します。

2番目の式は、収入の多寡や、顧客に子どもがいるかどうかが変換された応答に関係することを示します。顧客に子どもがいない場合、収入の係数は約0.04になります。顧客に子どもがいる場合、収入の係数は約0.02になります。こうした式では、顧客の収入が多いほど、製品を購入する可能性が高くなります。ただし、顧客に子どもがいない場合に、収入は、顧客が製品を購入するかどうかにより強い影響を与えます。

非コード化単位の回帰式

P(1)=exp(Y')/(1 + exp(Y'))
子供
いいえY'=-3.549 + 0.04296 年収
       
はいY'=-1.076 + 0.01565 年収

非階層なモデルで連続予測変数を標準化する場合、回帰式はコード化単位で表されます。詳細については、「コード化係数」のセクションを参照してください。階層の詳細については、階層モデルとはを参照してください。