回帰係数は、予測変数と応答変数の関係の、サイズと方向を表します。係数とは、回帰式において項の値に乗じられる数です。
予測変数の変化により事象が発生する可能性が高くなるか低くなるかを特定するには係数を使います。項の係数は、他の項は一定に保たれている中で1つのコード化単位の増加に関連するリンク関数の変化を表しています。
効果の大きさは、応答変数に対して項が持つ影響力の実質的な有意性を評価するのに役立ちます。効果の大きさは、項の統計的な有意性は示しません。これは有意性の計算には応答データの変動も考慮されるためです。統計的な有意性を判断するには、項のp値を調べます。
係数と確率の関係は、リンク関数や応答の参照事象、またモデル内のカテゴリ予測変数の参照水準など、分析におけるいくつかの側面によって異なります。一般的に係数が正数の場合は事象が発生する可能性が高く、負数の場合は低くなります。予測係数が0に近い場合、予測変数の影響が小さいことを表しています。
Logitリンクは推定係数を最も自然に解釈することができるため、Minitabではデフォルトのリンクとして使用しています。解釈では、参照事象のオッズがP(事象あり)かP(事象なし)であるという事実を使用し、他の予測変数が定数のままであると仮定します。対数オッズが大きくなるほど、参照事象の可能性は高くなります。したがって、係数が正の場合、事象の可能性は高くなり、係数が負の場合、事象の可能性は低くなります。異なるタイプの因子の解釈の要約は以下になります。
係数の標準誤差により、同じ母集団から繰り返しサンプルを抽出する場合に得られる係数推定値間の変動を推定します。計算では、サンプルを繰り返し抽出する場合はサンプルのサイズと係数の推定値は変わらないと仮定します。
係数の標準誤差を使用して、係数の推定値の精度を測定します。標準誤差が小さいほど、推定値の精度が高くなります。
これらの信頼区間(CI)は、モデルにおける各項に対する係数の真の値を含む可能性が高い値の幅です。
データのサンプルはランダムであるため、2つの母集団サンプルの信頼区間が同一である可能性は低くなります。しかし、ランダムなサンプルを何度も繰り返して測定すると、得られた信頼区間の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間の割合(%)を区間の信頼水準と言います。
信頼区間を使用して、モデルの各項の母集団係数の推定値を評価します。
たとえば、信頼水準が95%の場合、信頼区間に母集団の係数の値が含まれていることが95%信頼できます。信頼区間により、結果の実質的な有意性を評価しやすくなります。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて役に立たない場合、サンプルのサイズを増加させることを検討します。
Z値は、係数とその標準誤差の比率を測定するワルド検定の検定統計量です。
MinitabではZ値を使用してp値を計算し、これに基づいて項およびモデルの統計的有意性を判断します。サンプルサイズが十分に大きく、サンプルの係数の分布が正規分布に従う場合、ワルド検定は正確です。
Z値が0から十分に離れている場合は、係数の推定値が、0から統計的に異なるほど十分に大きくかつ正確であることを示しています。逆にZ値が0に近い場合は、係数の推定値が小さすぎる、または精度が低すぎて、項が応答に対して影響を及ぼすとは確信できないことを示しています。
逸脱表で表示される検定は尤度比検定です。係数表の拡張表に表示されるのはワルドの近似検定です。サンプルが小さい場合、尤度比検定のほうがワルドの近似検定よりも正確になります。
p値は帰無仮説を棄却するための証拠を測定する確率です。確率が低いほど、帰無仮説を棄却する強力な証拠となります。
逸脱表で表示される検定は尤度比検定です。係数表の拡張表に表示されるのはワルドの近似検定です。サンプルが小さい場合、尤度比検定のほうがワルドの近似検定よりも正確になります。
係数が0から統計的に異なるかどうかを判断するには、項のp値と有意水準を比較して帰無仮説を評価します。この帰無仮説は、係数は0に等しく、項と応答に関連性がないという仮定です。
通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が適切です。0.05の有意水準は、実際には係数は0であるにも関わらず、0ではないと結論付けるリスクが5%であることを示しています。
Logitリンクは推定係数を最も自然に解釈することができるため、Minitabではデフォルトのリンクとして使用しています。解釈では、参照事象のオッズがP(事象あり)かP(事象なし)であるという事実を使用し、他の予測変数が定数のままであると仮定します。対数オッズが大きくなるほど、参照事象の可能性は高くなります。したがって、係数が正の場合、事象の可能性は高くなり、係数が負の場合、事象の可能性は低くなります。異なるタイプの因子の解釈の要約は以下になります。
分散拡大要因(VIF: Variance Inflation Factor)は、モデルの予測変数間の相関が、回帰係数の分散をどのくらい増大させるかを示しています。
モデル内にどれだけ多重共線性(予測変数との相関)が存在するかを示すにはVIFを用います。ほとんどの要因計画でVIF値はすべて1で、これは予測変数に多重共線性がないことを表しています。多重共線性がなければ、統計的有意性の決定は簡単になります。VIF値が大きくなる主な二つの要因は、モデル内に共変量が含まれることと、データ収集時に実行に不備があることで、これにより統計的有意性の決定は複雑化します。2値応答の場合もVIF値はたいてい1よりも大きくなります。
VIF | 予測変数ステータス |
---|---|
VIF = 1 | 相関なし |
1 < VIF < 5 | 穏やかに相関 |
VIF > 5 | 強く相関 |
統計的有意性を使用して、多重共線性のあるモデルから項を削除するときは注意が必要です。モデルから項を1つずつ追加・削除します。モデルを変更するときは、統計的有意性の検定とモデル要約統計量の変化を監視します。