ポアソンモデルの当てはめの係数

係数表のすべての統計量の定義と解釈について解説します。

係数

回帰係数は、予測変数と応答変数の関係の、サイズと方向を表します。係数とは、回帰式において項の値に乗じられる数です。

解釈

係数を使い、予測変数の変化が事象が発生する確率に変化を与えるかどうかを判断します。予測変数の推定係数は、予測変数の1単位分の変化に対するリンク関数の変化を表し、モデルの他のすべての予測変数は固定されます。係数と事象数の関係は、モデルに含まれるカテゴリ予測変数の参照水準やリンク関数などを含む分析のさまざまな側面に依存します。基本的に、正の係数は事象の発生確率を高くし、負の係数は低くします。推定係数が0に近いということは、予測変数の影響力は小さいか、存在しないことを示します。

カテゴリ予測変数の推定された係数は、予測変数の参照水準と比較して解釈します。正の係数は、その予測変数の水準での事象の確率の方が、因子の参照水準よりも高いと考えられることを示します。負の係数は、その予測変数の水準での事象の確率の方が、参照水準よりも低いと考えられることを示します。

係数の標準誤差

係数の標準誤差により、同じ母集団から繰り返しサンプルを抽出する場合に得られる係数推定値間の変動を推定します。計算では、サンプルを繰り返し抽出する場合はサンプルのサイズと係数の推定値は変わらないと仮定します。

解釈

係数の標準誤差を使用して、係数の推定値の精度を測定します。標準誤差が小さいほど、推定値の精度が高くなります。

係数の信頼区間(95% CI)

信頼区間(CI)は、モデル内の各項の係数の真の値が含まれる可能性のある値の範囲です。信頼区間の計算では、正規分布を使用します。散布すのサイズが十分に大きく、サンプルの係数の分布が正規分布に従う場合、信頼区間は正確です。

データのサンプルはランダムであるため、1つの母集団からの2つのサンプルの信頼区間が同一である可能性は低くなります。しかし、ランダムなサンプルを何度も繰り返して測定すると、得られた信頼区間の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間の割合(%)を区間の信頼水準と言います。

信頼区間は、次の2つの部分で構成されています。
点推定
この単一値は、サンプルデータを使用して母数を推定するためのものです。信頼区間は、点推定を中心にして得られます。
誤差幅
誤差幅は、信頼区間の幅の定義に使用され、サンプル、サンプルサイズ、および信頼水準における観測された変動性によって決まります。信頼区間の上限を計算するには、誤差幅を点推定に加算します。信頼区間の下限を計算するには、点推定から誤差幅を減算します。

解釈

信頼区間を使用して、モデルの各項の母集団係数の推定値を評価します。

たとえば、信頼水準が95%の場合、信頼区間に母集団係数の値が含まれていることが95%信頼できます。信頼区間は、結果の実質的な有意性を評価するのに役立ちます。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて有用でない場合は、サンプルサイズを増やすことを検討します。

Z値

Z値は、係数とその標準誤差の比率を測定するワルド検定の検定統計量です。

解釈

MinitabではZ値を使用してp値を計算し、これに基づいて項およびモデルの統計的有意性を判断します。サンプルサイズが十分に大きく、サンプルの係数の分布が正規分布に従う場合、ワルド検定は正確です。

Z値が0から十分に離れている場合は、係数の推定値が、0から統計的に異なるほど十分に大きくかつ正確であることを示しています。逆にZ値が0に近い場合は、係数の推定値が小さすぎる、または精度が低すぎて、項が応答に対して影響を及ぼすとは確信できないことを示しています。

逸脱表で表示される検定は尤度比検定です。係数表の拡張表に表示されるのはワルドの近似検定です。サンプルが小さい場合、尤度比検定のほうがワルドの近似検定よりも正確になります。

p値

p値は帰無仮説を棄却するための証拠を測定する確率です。確率が低いほど、帰無仮説を棄却する強力な証拠となります。

逸脱表で表示される検定は尤度比検定です。係数表の拡張表に表示されるのはワルドの近似検定です。サンプルが小さい場合、尤度比検定のほうがワルドの近似検定よりも正確になります。

解釈

モデルにおける応答と各項の間の関係が統計的に有意かどうか判断するには、項のp値と有意水準を比較して帰無仮説を評価します。この帰無仮説は、項の係数は0に等しく、項と応答に関連性がないという仮定です。通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が適切です。0.05の有意水準は、実際には関連性がない場合でも、関連性が存在すると結論付けてしまうリスクが5%であるということを示します。
p値 ≤ α:関連性は統計的に有意です
p値が有意水準以下の場合は、応答変数と項の間に統計的に有意な関連性が存在すると結論付けることができます。
p値 > α:その関連性は統計的に有意ではありません
p値が有意水準より大きい場合は、応答変数と項の間に統計的に有意な関連性があると結論付けることはできません。項を持たないモデルを再適合したいと考えるかもしれません。
応答との間に統計的に有意な関連性がない予測変数が複数存在する場合は、一度に1つずつ項を削除することによってモデルを縮約できます。モデルからの項の削除の詳細は、モデルの縮約化を参照してください。
モデル項が統計的に有意な場合、解釈は項のタイプによって異なります。解釈は次のとおりです。
  • 連続予測変数が有意な場合、予測変数の係数は0ではないと結論できます。
  • カテゴリ変数が有意な場合、結論はカテゴリ変数のコード化に左右されます。(0, 1)コード化の場合、この水準の平均事象数は参照水準の平均事象数とは異なるという結論になります。(-1, 0, +1)コード化の場合、この水準の平均事象数はベースライン平均事象数とは異なるという結論になります。
  • 全ての水準が同じ平均事象数であるとは限らないという結論になります。
  • 交互作用項が有意な場合は、予測変数と事象数の間の関係は、その項の他の予測変数に左右されると結論づけることができます。
  • 多項式の項が有意な場合は、予測変数と事象数の関係が予測変数の大きさに依存すると結論づけることができます。

VIF

分散拡大要因(VIF: Variance Inflation Factor)は、モデルの予測変数間の相関が、回帰係数の分散をどのくらい増大させるかを示しています。

解釈

回帰分析において、どれくらい多重共線性(予測変数間の相関)が存在するかを表すのにVIFを使います。多重共線性は回帰係数の分散を増加させ、予測変数による応答変数への個々の影響力を評価するのが困難となる可能性があります。

以下のガイドラインに従ってVIFを解釈します。
VIF 予測変数ステータス
VIF = 1 相関なし
1 < VIF < 5 穏やかに相関
VIF > 5 強く相関
VIF値が5よりも大きい場合は、多重共線性が極端であるために回帰係数の推定精度が低いことを示しています。

多重共線性およびその影響の軽減方法についての詳細は、回帰における多重共線性を参照してください。

コード化係数

連続変数を標準化する場合、係数は、標準化された変数での単位当たり変化量を表します。通常は、多重共線性を減少させるため、または変数を一般的な尺度に変換するため、連続予測変数を標準化します。

解釈

コード化係数をどのように使用するかは、標準化手法によって変わります。係数の正しい解釈も、リンク関数のような分析の態様によって変わります。係数が正の場合、事象の可能性は高くなります。係数が負の場合、事象の可能性は低くなります。推定係数が0に近い場合、予測変数の影響は小さいことを示します。

低水準や高水準を指定し、-1や+1としてコード化する

各係数は、予測変数がコード化尺度の単位ごとに変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の場合、コード化により0は50℃、1は100℃に設定されます。時間の場合、コード化により、0は30秒、1は60秒に設定されます。温度の係数は50℃の増加を表します。時間の係数は30秒の増加を表します。

平均を引き、標準偏差で割る

各係数は、予測変数が1標準逸脱度ずつ変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の標準偏差は3.7℃です。時間の標準偏差は18.3秒です。温度の係数は3.7℃の増加を表します。時間の係数は18.3秒の増加を表します。

平均を引く

各係数は、予測変数が1ごとに変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の係数は1℃の増加を表します。時間の係数は1秒の増加を表します。

標準偏差で割る

各係数は、予測変数が1標準逸脱度ずつ変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは温度にはセ氏、時間には秒を使用します。温度の標準偏差は3.7℃です。時間の標準偏差は18.3秒です。温度の係数は3.7℃の増加を表します。時間の係数は18.3秒の増加を表します。

指定された値を引き、もう1つの値で割る

各係数は、予測変数が除数の値ごとに変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは長さにはメートル、電流にはアンペアを使用します。除数は1,000です。長さの係数は1ミリメートルの増加を表します。電流の係数は1ミリアンペアの増加を表します。

logitリンク関数の解釈

logitリンク関数は推定係数の最についての自然な解釈を提供するため、Minitabのデフォルトリンクになっています。logitリンク関数の場合、変換された応答変数は事象のオッズの自然対数です。別の標準化手法の解釈の要約は以下の通りです。
低い水準や高い水準を指定して-1や+1をコード化する

各係数は、予測変数がコード化尺度の単位ごとに変化するものとして、変換された応答平均の期待変化量を表します。

たとえば、モデルでは温度にはセ氏を使用します。コード化により0は50℃、1は100℃に設定されます。温度の係数は50℃の増加を表します。温度の係数は1.8です。温度が1コード化単位ごとに増加すると、温度は50℃ずつ上昇し、オッズの自然対数は1.8ずつ上昇します。

平均を引き、標準偏差で割る

各係数は、予測変数が1標準逸脱度ずつ変化するものとして、事象のオッズの自然対数の期待変化量を表します。

たとえば、モデルでは温度にはセ氏を使用します。温度の標準偏差は3.7℃です。温度の係数は1.4です。温度が1コード化単位ごとに増加すると、温度は3.7℃ずつ上昇し、オッズの自然対数は1.4ずつ上昇します。

平均を引く

各係数は、予測変数が1ずつ変化するものとして、事象のオッズの自然対数の期待変化を表します。

たとえば、モデルでは温度にはセ氏を使用します。温度の係数は1℃の増加を表します。温度の係数は2.3です。温度が1コード化単位ごとに増加すると、温度は1℃ずつ上昇し、オッズの自然対数は2.3ずつ上昇します。

標準偏差で割る

各係数は、予測変数が1標準逸脱度ずつ変化するものとして、事象のオッズの自然対数の期待変化量を表します。

たとえば、モデルでは温度にはセ氏を使用します。温度の標準偏差は3.7℃です。温度の係数は1.4です。温度が1コード化単位ごとに増加すると、温度は3.7℃ずつ上昇し、オッズの自然対数は1.4ずつ上昇します。

指定された値を引き、もう1つの値で割る

各係数は、予測変数が除数の値ごとに変化するものとして、事象のオッズの自然対数の期待変化量を表します。

たとえば、モデルでは長さにはメートル、電流にはアンペアを使用します。除数は1,000です。 長さの係数は1ミリメートルの増加を表します。長さの係数は5.6です。長さが1コード化単位ごとに増加すると、長さは1ミリメートルずつ上昇し、オッズの自然対数は5.6ずつ上昇します。電流の係数は1ミリアンペアの増加を表します。

回帰式

ポアソン回帰の場合、2種類の回帰式が表示されます。1つ目の式は、事象数を変換された応答に関連付けます。1つ目の式の形式は、リンク関数によって変わります。

2つ目の式は予測変数を変換された応答と関連付けます。モデルに連続予測変数とカテゴリ予測変数の両方が含まれている場合、2つ目の式はカテゴリの組み合わせごとに分けられます。表示する式の数を選択する方法の詳細は、ポアソンモデルの当てはめで表示する結果を選択するを参照してください。

解釈

これらの式を使用して、応答と予測変数の関係を調べます。

たとえば、樹脂部品に欠陥があるかどうかを予測するモデルには以下の項が含まれます。
  • ねじのサイズ
  • 温度

1つ目の式では、事象数と、自然対数リンク関数により変換された応答の関係を明らかにします。

2つ目の式では、ねじのサイズと温度が、変換された応答とどのような関係があるかを明らかにします。ねじのサイズが大きい場合、温度の係数は約−0.003です。ねじのサイズが小さい場合、係数は約−0.0005です。これらの式では、温度が高くなるほど、欠陥の発生数は少なくなります。ただし、ねじのサイズが大きくなると、欠陥数に対する温度の影響は大きくなります。

回帰式

変色=exp(Y')
ねじのサイズ
Y'=4.649 - 0.003285 温度
       
Y'=4.105 - 0.000481 温度

非階層なモデルで連続予測変数を標準化する場合、回帰式はコード化単位で表されます。詳細については、「コード化係数」のセクションを参照してください。階層の詳細については、階層モデルとはを参照してください。