一般線形モデルの適合の方法

目的の方法または計算式を選択してください。

GLMモデル

行列項において、一般線形回帰モデルは以下の計算式になります。

表記

用語説明
Y応答のベクトル
X計画行列
βパラメータのベクトル
ε独立した正規確率変数のベクトル

計画行列(M)

一般線形モデルは、回帰手法を使って指定したモデルを適合します。Minitabでは、まず因子と共変量から計画行列、および指定したモデルを作成します。この行列の列は、回帰分析の予測変数です。

計画行列はn行(n=観測値の数)およびモデル内の各項に対するいくつかの列ブロックを持ちます。最初のブロックは定数のためのブロックで1列しかなく、すべての列の値は1です。共変量のブロックにも、共変量自体の1列だけが含まれます。因子のブロックにはr列(r=因子の自由度)あり、以下の例に示すようにコード化されています。

ここで、4つの水準を持つ因子Aについて考えます。この因子には3つの自由度があり、このブロックには、A1、A2、A3と呼ばれる3つの列が含まれるとします。

水準A A1 A2 A3
1 1 0 0
2 0 1 0
3 0 0 1
4 –1 –1 –1

次に、因子Bに、Aの各水準の中に含まれる3つの枝分かれした水準があるものとします。この場合、このブロックには、B11、B12、B21、B22、B31、B32、B41、B42と呼ばれる(3 - 1) x 4 = 8列が含まれ、次のようにコード化されます。

水準A 水準B B11 B12 B21 B22 B31 B32 B41 B42
1 1 1 0 0 0 0 0 0 0
1 2 0 1 0 0 0 0 0 0
1 3 –1 –1 0 0 0 0 0 0
2 1 0 0 1 0 0 0 0 0
2 2 0 0 0 1 0 0 0 0
2 3 0 0 –1 –1 0 0 0 0
3 1 0 0 0 0 1 0 0 0
3 2 0 0 0 0 0 1 0 0
3 3 0 0 0 0 –1 –1 0 0
4 1 0 0 0 0 0 0 1 0
4 2 0 0 0 0 0 0 0 1
4 3 0 0 0 0 0 0 –1 –1

交互作用項の列を計算するには、交互作用項にある因子または共変量、あるいはその両方の対応する列すべての積を求めます。たとえば、因子Aに6つの水準があり、Cに3つの水準があり、Dに4つの水準があり、ZとWが共変量であるとします。項A * C * D * Z * W * Wの列は5 × 2 × 3 × 1 × 1 × 1 = 30となります。これらを取得するには、Aの列に、C、Dの各列、共変量Zを1回、およびWを2回掛けます。

ボックスーコックス変換

ボックスーコックス変換では、以下に示す通り、二乗値の残差合計を最小化するλ値が選択されます。出力される変換は、λ ≠ 0の場合にYλ、およびλ = 0の場合にln(Y)です。λ < 0の場合に、変換済み応答に−1を掛けて、変換されていない応答の順序を維持します。

−2~2の範囲で最適値が検索されます。値がこの区間外になった場合、適合性が低下することがあります。

以下は一般的な変換方法です(Y′はデータYの変換データ)。

ラムダ(λ)値 変換
λ = 2 Y′ = Y 2
λ = 0.5 Y′ =
λ = 0 Y′ = ln(Y )
λ = −0.5
λ = −1 Y′ = −1 / Y

重み付き回帰

重み付き最小二乗回帰は、観測値の分散が不均一な場合に用いられる手法です。分散が一定でない場合、

  • 観測値の分散が大きい場合は比較的小さい重みが与えられます
  • 観測値の分散が小さい場合は比較的大きい重みが与えられます

通常の重みの選択は、応答の純誤差分散の逆数です。

推定された係数を表す式は以下になります。
これは重み付き誤差平方和を最小化する際に用いられる式と同等です。

表記

用語説明
X計画行列
X'計画行列の転置
W対角線に重みを配置したn×n行列
Y応答値のベクトル
n観測値数
wii番目の観測値の重み値
yii番目の観測値の応答値
i番目の観測値の適合値

一般線形モデルの適合で回帰式から高い相関を持つ予測変数を取り除く方法

相関の高い予測変数を回帰式から取り除くには、Minitabで次の手順を実行します。
  1. X行列でQR分解を実行します。

    QR分解を使用してR2を計算する方が、最小二乗回帰を使用するより早く計算できます。

  2. Minitabでは、予測変数を他のすべての予測変数で回帰し、R2値を計算します。1-R2<4*2.22e-16の場合は、その予測値は検定に不合格となり、モデルから削除されます。
  3. 残りの予測変数について、ステップ1と2を繰り返します。

モデルにX1、X2、X3、X4、X5の予測変数と応答Yが含まれているとします。Minitabによって次のことが実行されます。
  1. X5をX1~X4で回帰します。1-R2が4*2.22e-16よりも大きい場合は、X5は式内に残されます。X5は検定に合格し、式内に保持されます。
  2. X4をX1、X2、X3、X5で回帰します。この回帰の1-R2が4*2.22e-16より大きかったため、式内に保持されるとします。
  3. X3をX1、X2、X4、X5で回帰し、R2値を計算します。X3は検定に不合格となり、式から削除されます。
  4. X行列で新しいQR分解を実行し、X2を残りの予測変数X1、X4、X5で回帰します。X2は検定に合格します。
  5. X1をX2、X4、X5で回帰します。X1は検定に不合格となり、式から削除されます。

Minitabは、YをX2、X4、X5で回帰します。結果には、X1とX3は推定できず、モデルから削除されたというメッセージが含まれています。

GZLMセッションコマンドでTOLERANCEサブコマンドを使用すると、別の予測変数と相関が高い予測変数をモデル内に保持するように強制できます。ただし、公差を下げると、数値結果が不正確となる可能性があるため危険です。