回帰係数は、予測変数と応答変数の関係の、サイズと方向を表します。係数とは、回帰式において項の値に乗じられる数です。
係数を使用して、予測変数の変化が事象が発生する可能性が高いか低いかを判断します。予測変数の推定係数は、予測変数の1単位分の変化に対するリンク関数の変化を表し、モデル内の他の予測変数は固定されます。結果の係数と確率の関係は、リンク関数や応答の参照事象、カテゴリ予測変数の参照水準を含む、分析の方法によって変わります。一般に、係数が正の場合は事象の可能性は高くなり、係数が負の場合は事象の可能性は低くなります。推定係数が0に近い場合、予測変数の影響は小さいことを示します。
カテゴリ予測変数の推定された係数は、予測変数の参照水準と比較して解釈します。正の係数は、事象が起こる可能性が、因子の参照水準よりも予測変数の水準の方が大きいことを示します。負の係数は、事象が起こる可能性が、参照水準よりも予測変数の水準の方が小さいことを示します。
logitリンクは推定係数の最も自然な解釈を提供するため、Minitabのデフォルトリンクになっています。解釈では、参照事象のオッズがP(事象あり)かP(事象なし)であるという事実を使用し、他の予測変数が定数のままであると仮定します。対数オッズが大きくなるほど、参照事象の可能性は高くなります。したがって、係数が正の場合、事象の可能性は高くなり、係数が負の場合、事象の可能性は低くなります。異なるタイプの予測変数の解釈の要約は以下になります。
係数の標準誤差により、同じ母集団から繰り返しサンプルを抽出する場合に得られる係数推定値間の変動を推定します。計算では、サンプルを繰り返し抽出する場合はサンプルのサイズと係数の推定値は変わらないと仮定します。
係数の標準誤差を使用して、係数の推定値の精度を測定します。標準誤差が小さいほど、推定値の精度が高くなります。
信頼区間(CI)は、モデル内の各項の係数の真の値が含まれる可能性のある値の範囲です。信頼区間の計算では、正規分布を使用します。散布すのサイズが十分に大きく、サンプルの係数の分布が正規分布に従う場合、信頼区間は正確です。
データのサンプルはランダムであるため、1つの母集団からの2つのサンプルの信頼区間が同一である可能性は低くなります。しかし、ランダムなサンプルを何度も繰り返して測定すると、得られた信頼区間の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間の割合(%)を区間の信頼水準と言います。
信頼区間を使用して、モデルの各項の母集団係数の推定値を評価します。
たとえば、信頼水準が95%の場合、信頼区間に母集団係数の値が含まれていることが95%信頼できます。信頼区間は、結果の実質的な有意性を評価するのに役立ちます。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて有用でない場合は、サンプルサイズを増やすことを検討します。
Z値は、係数とその標準誤差の比率を測定するワルド検定の検定統計量です。
MinitabではZ値を使用してp値を計算し、これに基づいて項およびモデルの統計的有意性を判断します。サンプルサイズが十分に大きく、サンプルの係数の分布が正規分布に従う場合、ワルド検定は正確です。
Z値が0から十分に離れている場合は、係数の推定値が、0から統計的に異なるほど十分に大きくかつ正確であることを示しています。逆にZ値が0に近い場合は、係数の推定値が小さすぎる、または精度が低すぎて、項が応答に対して影響を及ぼすとは確信できないことを示しています。
逸脱表で表示される検定は尤度比検定です。係数表の拡張表に表示されるのはワルドの近似検定です。サンプルが小さい場合、尤度比検定のほうがワルドの近似検定よりも正確になります。
p値は帰無仮説を棄却するための証拠を測定する確率です。確率が低いほど、帰無仮説を棄却する強力な証拠となります。
分散拡大係数(VIF)は、係数の分散が多重共線性により上昇する量を示します。
VIFを使用して、回帰分析に存在する多重共線性の量を説明します。多重共線性は、回帰係数の分散性を増大させ、各予測変数の応答に与えるそれぞれの影響度を評価するのを困難にしたりするため、問題の原因となります。
VIF | 多重共線性 |
---|---|
VIF = 1 | なし |
1 < VIF < 5 | 中 |
VIF > 5 | 高 |
多重共線性とその効果を緩和する方法の詳細は、回帰の多重共線性を参照してください。
連続変数を標準化する場合、係数は、標準化された変数での単位当たり変化量を表します。通常は、多重共線性を減少させるため、または変数を一般的な尺度に変換するため、連続予測変数を標準化します。
コード化係数をどのように使用するかは、標準化手法によって変わります。係数の正しい解釈も、リンク関数のような分析の態様によって変わります。係数が正の場合、事象の可能性は高くなります。係数が負の場合、事象の可能性は低くなります。推定係数が0に近い場合、予測変数の影響は小さいことを示します。
各係数は、予測変数がコード化尺度の単位ごとに変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の場合、コード化により0は50℃、1は100℃に設定されます。時間の場合、コード化により、0は30秒、1は60秒に設定されます。温度の係数は50℃の増加を表します。時間の係数は30秒の増加を表します。
各係数は、予測変数が1標準逸脱度ずつ変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の標準偏差は3.7℃です。時間の標準偏差は18.3秒です。温度の係数は3.7℃の増加を表します。時間の係数は18.3秒の増加を表します。
各係数は、予測変数が1ごとに変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の係数は1℃の増加を表します。時間の係数は1秒の増加を表します。
各係数は、予測変数が1標準逸脱度ずつ変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の標準偏差は3.7℃です。時間の標準偏差は18.3秒です。温度の係数は3.7℃の増加を表します。時間の係数は18.3秒の増加を表します。
各係数は、予測変数が除数の値ごとに変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは長さにはメートル、電流にはアンペアを使用します。除数は1,000です。長さの係数は1ミリメートルの増加を表します。電流の係数は1ミリアンペアの増加を表します。
各係数は、予測変数がコード化尺度の単位ごとに変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは温度にはセ氏を使用します。コード化により0は50℃、1は100℃に設定されます。温度の係数は50℃の増加を表します。温度の係数は1.8です。温度が1コード化単位ごとに増加すると、温度は50℃ずつ上昇し、オッズの自然対数は1.8ずつ上昇します。
各係数は、予測変数が1標準逸脱度ずつ変化するものとして、事象のオッズの自然対数の期待変化量を表します。
たとえば、モデルでは温度にはセ氏を使用します。温度の標準偏差は3.7℃です。温度の係数は1.4です。温度が1コード化単位ごとに増加すると、温度は3.7℃ずつ上昇し、オッズの自然対数は1.4ずつ上昇します。
各係数は、予測変数が1ずつ変化するものとして、事象のオッズの自然対数の期待変化を表します。
たとえば、モデルでは温度にはセ氏を使用します。温度の係数は1℃の増加を表します。温度の係数は2.3です。温度が1コード化単位ごとに増加すると、温度は1℃ずつ上昇し、オッズの自然対数は2.3ずつ上昇します。
各係数は、予測変数が1標準逸脱度ずつ変化するものとして、事象のオッズの自然対数の期待変化量を表します。
たとえば、モデルでは温度にはセ氏を使用します。温度の標準偏差は3.7℃です。温度の係数は1.4です。温度が1コード化単位ごとに増加すると、温度は3.7℃ずつ上昇し、オッズの自然対数は1.4ずつ上昇します。
各係数は、予測変数が除数の値ごとに変化するものとして、事象のオッズの自然対数の期待変化量を表します。
たとえば、モデルでは長さにはメートル、電流にはアンペアを使用します。除数は1,000です。 長さの係数は1ミリメートルの増加を表します。長さの係数は5.6です。長さが1コード化単位ごとに増加すると、長さは1ミリメートルずつ上昇し、オッズの自然対数は5.6ずつ上昇します。電流の係数は1ミリアンペアの増加を表します。
2値ロジスティック回帰では、2種類の回帰式が表示されます。最初の式は、事象確率と変換された応答を関連づけます。最初の式の形は、リンク関数によって変わります。
2番目の式は、予測変数と変換された応答を関連づけます。モデルに連続予測変数とカテゴリ予測変数の両方がある場合、2番目の式は、カテゴリの組み合わせごとに分離できます。表示される式の数を選択する方法の詳細は、表示する結果を選択し2値ロジスティックモデルの当てはめ、 2値ロジスティック回帰を参照してください。
これらの式を使用して、応答と予測変数の関係を調べます。
最初の式は、logitリンク関数を基に事象確率と変換された応答の関係を表示します。
2番目の式は、収入の多寡や、顧客に子どもがいるかどうかが変換された応答に関係することを示します。顧客に子どもがいない場合、収入の係数は約0.04になります。顧客に子どもがいる場合、収入の係数は約0.02になります。こうした式では、顧客の収入が多いほど、製品を購入する可能性が高くなります。ただし、顧客に子どもがいない場合に、収入は、顧客が製品を購入するかどうかにより強い影響を与えます。
P(1) | = | exp(Y')/(1 + exp(Y')) |
---|
子供 | |||
---|---|---|---|
いいえ | Y' | = | -3.549 + 0.04296 年収 |
はい | Y' | = | -1.076 + 0.01565 年収 |
非階層なモデルで連続予測変数を標準化する場合、回帰式はコード化単位で表されます。詳細については、「コード化係数」のセクションを参照してください。階層の詳細については、階層モデルとはを参照してください。