回帰係数は、予測変数と応答変数の関係の、サイズと方向を表します。係数とは、回帰式において項の値に乗じられる数です。
項の係数は、その項の変化に関連付けられた平均応答の変化を表し、モデル内の他の全ての項は固定されます。相関係数の符号は項と応答変数の関係の方向を示します。係数の大きさは、応答変数に対して項が持つ影響力の実質的な優位性を評価するのに役立ちます。ただし、係数の大きさは項の統計的な有意性は示しません。これは有意性の計算には応答データの変動も考慮されるためです。統計的な有意性を判断するには、項のp値を調べます。
項の係数は、その項の1単位分の変化に対する平均応答の変化を表します。項が増えるにつれて係数が負値になる場合は、平均応答値は減少します。項が増えるにつれて係数が正値になる場合は、平均応答値は増加します。
例えば、あるマネージャーは従業員のスキルテストのスコアが回帰モデル y = 130 + 4.3x1 + 10.1x2によって予測できると判断しました。この式でx1は社内トレーニングの時間(0から20)です。変数x2は、従業員に指導者がついた場合に1に等しく、指導者がつかない場合は0になるカテゴリ変数です。応答はyで、テストのスコアになります。トレーニング時間に対する連続変数の係数は4.3で、これはトレーニング1時間ごとにテストの平均スコアが4.3ポイントずつ上がることを示しています。(0, 1)のコード化スキームを使うと、指導者をつけるというカテゴリ変数の係数は、従業員に指導者がついた場合のスコアがつかなかった場合に比べて平均10.1ポイント高くなることを示しています。
Minitabはモデルに含まれる連続変数に対するさまざまなコード化スキームを使い、線形モデルを適合させることができます。これらのコード化スキームにより、推定する工程や結果の解釈が向上します。さらに、コード化された単位は、各項が応答に対する有意な予測変数かどうかを判断するのに使われる統計検定の結果を変える可能性があります。モデルがコード化単位を使う場合、分析ではコード化係数が生成されます。
係数の標準誤差により、同じ母集団から繰り返しサンプルを抽出する場合に得られる係数推定値間の変動を推定します。計算では、サンプルを繰り返し抽出する場合はサンプルのサイズと係数の推定値は変わらないと仮定します。
係数の標準誤差は、係数の推定値の精度を測定するために使用します。標準誤差が小さいほど、推定値の精度が高くなります。係数を標準誤差で割ったものがt値です。t統計量と関連付けられたp値が有意水準以下の場合、係数は統計的に有意であると結論付けることができます。
たとえば、技術者が太陽熱エネルギーテストの一環として、日射のモデルを推定したとします。
項 | 係数 | 係数の標準誤差 | t値 | p値 | VIF |
---|---|---|---|---|---|
定数 | 809 | 377 | 2.14 | 0.042 | |
南 | 20.81 | 8.65 | 2.41 | 0.024 | 2.24 |
北 | -23.7 | 17.4 | -1.36 | 0.186 | 2.17 |
時刻 | -30.2 | 10.8 | -2.79 | 0.010 | 3.86 |
このモデルでは、北と南は焦点がインチ単位で測られています。北と南の係数は大きさでは似ています。南の係数の標準誤差は北のそれよりも小さくなっています。したがって、このモデルは南の係数をより高い精度で推定することができます。
北の係数の標準誤差は、それ自身の係数とほぼ同程度の大きさです。得られるp値は共通の有意水準よりも大きいため、北の係数が0と異なると結論付けることはできません。
南の係数は北の係数よりも0に近いですが、南の係数の標準誤差は同じように小さくなっています。得られるp値は共通の有意水準よりも小さくなります。南の係数の推定値のほうがより正確なため、南の係数は0とは異なると結論付けることができます。
統計的有意性は、重回帰においてモデルを縮小させる一つの判定基準となります。詳細は、モデルの縮約化を参照してください。
これらの信頼区間(CI)は、モデルにおける各項に対する係数の真の値を含む可能性が高い値の幅です。
データのサンプルはランダムであるため、1つの母集団からの2つのサンプルの信頼区間が同一である可能性は低くなります。しかし、ランダムなサンプルを何度も繰り返して測定すると、得られた信頼区間の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間の割合(%)を区間の信頼水準と言います。
信頼区間を使用して、モデルの各項の母集団係数の推定値を評価します。
たとえば、信頼水準が95%の場合、信頼区間に母集団係数の値が含まれていることが95%信頼できます。信頼区間は、結果の実質的な有意性を評価するのに役立ちます。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて有用でない場合は、サンプルサイズを増やすことを検討します。
t値は、係数とその標準誤差の間の比率を測定します。
t値を使用してMinitabで計算されるp値に基づいて、係数が0と有意に異なるかどうかを検定することができます。
t値を使用して、帰無仮説を棄却するかどうかを判断できます。ただし、帰無仮説棄却のしきい値は自由度に依存しないため、p値が使用される頻度は高まります。t値に関する詳細については、t値を使用して、帰無仮説を棄却するかどうかを判断するを参照してください。
p値は帰無仮説を棄却するための証拠を測定する確率です。確率が低いほど、帰無仮説を棄却する強力な証拠となります。
分散拡大要因(VIF: Variance Inflation Factor)は、モデルの予測変数間の相関が、回帰係数の分散をどのくらい増大させるかを示しています。
回帰分析において、どれくらい多重共線性(予測変数間の相関)が存在するかを表すのにVIFを使います。多重共線性は回帰係数の分散を増加させ、予測変数による応答変数への個々の影響力を評価するのが困難となる可能性があります。
VIF | 予測変数ステータス |
---|---|
VIF = 1 | 相関なし |
1 < VIF < 5 | 穏やかに相関 |
VIF > 5 | 強く相関 |
多重共線性およびその影響の軽減方法についての詳細は、回帰における多重共線性を参照してください。