多重共線性とは

回帰での多重共線性とは、モデル内の一部の予測変数が他の予測変数と相関しているときに起こる状態です。重度の多重共線性は、回帰係数の分散を増加させて不安定にするため問題となります。不安定な係数は以下のような結果を生みます。
  • 係数は、予測変数と応答の間に有意な関係が存在する場合でも、有意でなく見える場合があります。
  • 高度に相関する予測変数の係数がサンプル間で大きく異なる。
  • モデルから高度に相関する項を除外すると、他の高度に相関する項の推定された係数に大きく影響を及ぼします。相関の高い項の係数の符号が誤っている場合もあります。

多重共線性を測定するには、予測変数の相関の構造を調べます。また、モデル内の回帰係数の分散拡大係数(VIF)を調べることもできます。分散拡大係数は、予測変数間に相関がある場合に推定された回帰係数の分散がどれだけ増加するかを測定するものです。すべてのVIFが1の場合は多重共線性はありませんが、一部のVIFが1よりも大きい場合は予測変数が相関しています。VIFが5より大きい場合、その項の回帰係数は適切に推定されません。

多重共線性の別な測定値は条件数です。Minitabでは、べストサブセット回帰の拡大版の表に条件数が表示されます。条件数では、個々の項ではなくモデル全体の多重共線性を評価します。条件数が多くなると、モデル内の項の多重共線性も大きくなります。Montgomery、PeckおよびVining(1 )では、条件数が100よりも多い場合は多重共線性が中程度であることを示しています。多重共線性が中程度または低い場合は、VIFとデータの相関構造を使用してモデル内の項間の関係を調査する必要があります。

予測変数の他の予測変数との相関がほぼ完全である場合、項を推定できないというメッセージが表示されます。推定できない 項のVIF値は通常、10億を超えます。

多重共線性は、適合度および予測の良さには影響しません。係数(線形判別関数)について信頼性の高い解釈を行うことはできませんが、適合値(分類された値)は影響を受けません。

多重共線性は、判別分析に回帰と同じような影響を与えます。

多重共線性を修正する方法

重度の多重共線性の解決策としては次が考えられます。
  • 多項式を適合している場合は、予測変数の値から予測変数の平均を引きます。
  • 高い相関を持つ予測変数をモデルから取り除きます。これらの予測変数は冗長な情報を提供しているため、取り除いてもR2は大して減少しません。これらの変数を取り除くには、ステップワイズ回帰、ベストサブセット回帰、またはデータセットに関する専門知識が使用できます。
  • PLSまたは主成分分析を使用します。これらの分析法を利用することで、予測変数の数を減らして、より小さい一連の無相関な成分にまとめられます。

たとえば、あるおもちゃメーカーが、顧客満足度を予測しようとしています。回帰モデルに「強度」と「壊れにくさ」を予測変数として取り込みます。調査員は、これらの2つの変数の間に強い負の相関があり、VIFが5より大きいと判断します。ここで、調査員は変数のいずれかを削除することができます。また、PLSまたは主成分分析を使用して、これらの関連する変数を使用して「耐久性」成分を作成することもできます。

1 Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to linear regression analysis (5th ed.). Hoboken, NJ: Wiley.