回帰係数は、予測変数と応答変数の関係の、サイズと方向を表します。係数とは、回帰式において項の値に乗じられる数です。
係数を使い、予測変数の変化が事象が発生する確率に変化を与えるかどうかを判断します。予測変数の推定係数は、予測変数の1単位分の変化に対するリンク関数の変化を表し、モデルの他のすべての予測変数は固定されます。係数と事象数の関係は、モデルに含まれるカテゴリ予測変数の参照水準やリンク関数などを含む分析のさまざまな側面に依存します。基本的に、正の係数は事象の発生確率を高くし、負の係数は低くします。推定係数が0に近いということは、予測変数の影響力は小さいか、存在しないことを示します。
カテゴリ予測変数の推定された係数は、予測変数の参照水準と比較して解釈します。正の係数は、その予測変数の水準での事象の確率の方が、因子の参照水準よりも高いと考えられることを示します。負の係数は、その予測変数の水準での事象の確率の方が、参照水準よりも低いと考えられることを示します。
係数の標準誤差により、同じ母集団から繰り返しサンプルを抽出する場合に得られる係数推定値間の変動を推定します。計算では、サンプルを繰り返し抽出する場合はサンプルのサイズと係数の推定値は変わらないと仮定します。
係数の標準誤差を使用して、係数の推定値の精度を測定します。標準誤差が小さいほど、推定値の精度が高くなります。
信頼区間(CI)は、モデル内の各項の係数の真の値が含まれる可能性のある値の範囲です。信頼区間の計算では、正規分布を使用します。散布すのサイズが十分に大きく、サンプルの係数の分布が正規分布に従う場合、信頼区間は正確です。
データのサンプルはランダムであるため、1つの母集団からの2つのサンプルの信頼区間が同一である可能性は低くなります。しかし、ランダムなサンプルを何度も繰り返して測定すると、得られた信頼区間の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間の割合(%)を区間の信頼水準と言います。
信頼区間を使用して、モデルの各項の母集団係数の推定値を評価します。
たとえば、信頼水準が95%の場合、信頼区間に母集団係数の値が含まれていることが95%信頼できます。信頼区間は、結果の実質的な有意性を評価するのに役立ちます。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて有用でない場合は、サンプルサイズを増やすことを検討します。
Z値は、係数とその標準誤差の比率を測定するワルド検定の検定統計量です。
MinitabではZ値を使用してp値を計算し、これに基づいて項およびモデルの統計的有意性を判断します。サンプルサイズが十分に大きく、サンプルの係数の分布が正規分布に従う場合、ワルド検定は正確です。
Z値が0から十分に離れている場合は、係数の推定値が、0から統計的に異なるほど十分に大きくかつ正確であることを示しています。逆にZ値が0に近い場合は、係数の推定値が小さすぎる、または精度が低すぎて、項が応答に対して影響を及ぼすとは確信できないことを示しています。
逸脱表で表示される検定は尤度比検定です。係数表の拡張表に表示されるのはワルドの近似検定です。サンプルが小さい場合、尤度比検定のほうがワルドの近似検定よりも正確になります。
p値は帰無仮説を棄却するための証拠を測定する確率です。確率が低いほど、帰無仮説を棄却する強力な証拠となります。
逸脱表で表示される検定は尤度比検定です。係数表の拡張表に表示されるのはワルドの近似検定です。サンプルが小さい場合、尤度比検定のほうがワルドの近似検定よりも正確になります。
分散拡大要因(VIF: Variance Inflation Factor)は、モデルの予測変数間の相関が、回帰係数の分散をどのくらい増大させるかを示しています。
回帰分析において、どれくらい多重共線性(予測変数間の相関)が存在するかを表すのにVIFを使います。多重共線性は回帰係数の分散を増加させ、予測変数による応答変数への個々の影響力を評価するのが困難となる可能性があります。
VIF | 予測変数ステータス |
---|---|
VIF = 1 | 相関なし |
1 < VIF < 5 | 穏やかに相関 |
VIF > 5 | 強く相関 |
多重共線性およびその影響の軽減方法についての詳細は、回帰における多重共線性を参照してください。
連続変数を標準化する場合、係数は、標準化された変数での単位当たり変化量を表します。通常は、多重共線性を減少させるため、または変数を一般的な尺度に変換するため、連続予測変数を標準化します。
コード化係数をどのように使用するかは、標準化手法によって変わります。係数の正しい解釈も、リンク関数のような分析の態様によって変わります。係数が正の場合、事象の可能性は高くなります。係数が負の場合、事象の可能性は低くなります。推定係数が0に近い場合、予測変数の影響は小さいことを示します。
各係数は、予測変数がコード化尺度の単位ごとに変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の場合、コード化により0は50℃、1は100℃に設定されます。時間の場合、コード化により、0は30秒、1は60秒に設定されます。温度の係数は50℃の増加を表します。時間の係数は30秒の増加を表します。
各係数は、予測変数が1標準逸脱度ずつ変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の標準偏差は3.7℃です。時間の標準偏差は18.3秒です。温度の係数は3.7℃の増加を表します。時間の係数は18.3秒の増加を表します。
各係数は、予測変数が1ごとに変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の係数は1℃の増加を表します。時間の係数は1秒の増加を表します。
各係数は、予測変数が1標準逸脱度ずつ変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の標準偏差は3.7℃です。時間の標準偏差は18.3秒です。温度の係数は3.7℃の増加を表します。時間の係数は18.3秒の増加を表します。
各係数は、予測変数が除数の値ごとに変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは長さにはメートル、電流にはアンペアを使用します。除数は1,000です。長さの係数は1ミリメートルの増加を表します。電流の係数は1ミリアンペアの増加を表します。
各係数は、予測変数がコード化尺度の単位ごとに変化するものとして、変換された応答平均の期待変化量を表します。
たとえば、モデルでは温度にはセ氏を使用します。コード化により0は50℃、1は100℃に設定されます。温度の係数は50℃の増加を表します。温度の係数は1.8です。温度が1コード化単位ごとに増加すると、温度は50℃ずつ上昇し、オッズの自然対数は1.8ずつ上昇します。
各係数は、予測変数が1標準逸脱度ずつ変化するものとして、事象のオッズの自然対数の期待変化量を表します。
たとえば、モデルでは温度にはセ氏を使用します。温度の標準偏差は3.7℃です。温度の係数は1.4です。温度が1コード化単位ごとに増加すると、温度は3.7℃ずつ上昇し、オッズの自然対数は1.4ずつ上昇します。
各係数は、予測変数が1ずつ変化するものとして、事象のオッズの自然対数の期待変化を表します。
たとえば、モデルでは温度にはセ氏を使用します。温度の係数は1℃の増加を表します。温度の係数は2.3です。温度が1コード化単位ごとに増加すると、温度は1℃ずつ上昇し、オッズの自然対数は2.3ずつ上昇します。
各係数は、予測変数が1標準逸脱度ずつ変化するものとして、事象のオッズの自然対数の期待変化量を表します。
たとえば、モデルでは温度にはセ氏を使用します。温度の標準偏差は3.7℃です。温度の係数は1.4です。温度が1コード化単位ごとに増加すると、温度は3.7℃ずつ上昇し、オッズの自然対数は1.4ずつ上昇します。
各係数は、予測変数が除数の値ごとに変化するものとして、事象のオッズの自然対数の期待変化量を表します。
たとえば、モデルでは長さにはメートル、電流にはアンペアを使用します。除数は1,000です。 長さの係数は1ミリメートルの増加を表します。長さの係数は5.6です。長さが1コード化単位ごとに増加すると、長さは1ミリメートルずつ上昇し、オッズの自然対数は5.6ずつ上昇します。電流の係数は1ミリアンペアの増加を表します。
ポアソン回帰の場合、2種類の回帰式が表示されます。1つ目の式は、事象数を変換された応答に関連付けます。1つ目の式の形式は、リンク関数によって変わります。
2つ目の式は予測変数を変換された応答と関連付けます。モデルに連続予測変数とカテゴリ予測変数の両方が含まれている場合、2つ目の式はカテゴリの組み合わせごとに分けられます。表示する式の数を選択する方法の詳細は、ポアソンモデルの当てはめで表示する結果を選択するを参照してください。
これらの式を使用して、応答と予測変数の関係を調べます。
1つ目の式では、事象数と、自然対数リンク関数により変換された応答の関係を明らかにします。
2つ目の式では、ねじのサイズと温度が、変換された応答とどのような関係があるかを明らかにします。ねじのサイズが大きい場合、温度の係数は約−0.003です。ねじのサイズが小さい場合、係数は約−0.0005です。これらの式では、温度が高くなるほど、欠陥の発生数は少なくなります。ただし、ねじのサイズが大きくなると、欠陥数に対する温度の影響は大きくなります。
変色 | = | exp(Y') |
---|
ねじのサイズ | |||
---|---|---|---|
大 | Y' | = | 4.649 - 0.003285 温度 |
小 | Y' | = | 4.105 - 0.000481 温度 |
非階層なモデルで連続予測変数を標準化する場合、回帰式はコード化単位で表されます。詳細については、「コード化係数」のセクションを参照してください。階層の詳細については、階層モデルとはを参照してください。