カテゴリ予測変数のコード化方式

カテゴリ予測変数で回帰分析の実行時、コード化方式を使用して、カテゴリ予測変数から指標変数を作成します。モデルが複雑になると、解釈は類似します。ただし、共変量を追加する場合や、グループ内に等しくないサンプルサイズがある場合、係数は算術平均(nで割った観測値の和)ではなく、各因子水準の重み付き平均に基づいて計算されます。ただし、以下の通り、解釈は同じです。
  • 1,0のコード化を使用すると、係数は因子水準とそのベースライン水準の間の距離を表します。
  • 1,0,-1のコード化を使うと、係数は因子水準と全体平均の間の距離を表します。

デフォルトで、Minitabでは回帰に(1,0)コード化方式を使用しますが、コード化サブダイアログボックスで(-1,0,+1)コード化方式を使用するように変更できます。詳細はカテゴリ予測変数のコード化方式を参照してください。

1つの因子を持つモデルのコード化方式を解釈する

1つの因子を持つ例のデータ

まず、1つの因子を持ち、この因子に対して3つの水準を持つバランス型の計画を検討してみましょう。

C1 C2 - T
応答 因子
1 A
3 A
2 A
2 A
4 B
6 B
3 B
5 B
8 C
9 C
7 C
10 C

1つの因子を持つ例の記述統計量

平均に着目して記述統計量を調べます。

記述統計量: 応答

統計量 変数 合計数 平均 応答 12 5.000

Descriptive Statistics: Response

Statistics Total Variable Factor Count Mean Response A 4 2.000 B 4 4.500 C 4 8.500

1つの因子を持つセル平均モデル(0,1)のコード化方式を解釈する例

出力を取得するには以下を行います。
  1. 統計 > 回帰 > 回帰 > 回帰モデルの適合を選択します。
  2. 応答応答を入力します。
  3. カテゴリ予測変数因子を入力します。
  4. コード化をクリックします。参照水準Cを選択します。
  5. 各ダイアログで[OK]をクリックします。

Regression Analysis: Response versus Factor

Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 8.500 0.577 14.72 0.000 Factor A -6.500 0.816 -7.96 0.000 1.33 B -4.000 0.816 -4.90 0.001 1.33
Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 86.00 43.000 32.25 0.000 Factor 2 86.00 43.000 32.25 0.000 Error 9 12.00 1.333 Total 11 98.00
次の因子水準の平均値を覚えておきます。
  • A = 2.0
  • B = 4.5
  • C = 8.5

推定回帰式は次のようになります。

Regression Analysis: Response versus Factor

Regression Equation Response = 8.500 - 6.500 Factor_A - 4.000 Factor_B + 0.0 Factor_C

水準Cはベースラインなので、0の係数を持ちます。因子が1つだけの場合、切片はベースライン水準の平均と等しくなります。

水準Aに対応する係数は–6.5です。これは、水準Aはベースライン水準に基づいているという違いです。Aの係数を取り出して、切片(またはベースラインの平均)を追加する場合、水準Aの平均–6.5+8.5=2.0が得られます。

同様に、水準Bに対応する係数は–4.0です。これは水準Bとベースライン水準の差です。水準Bの係数を取り出して切片を追加する場合、水準Bの平均–4.0+8.5=4.5が得られます。

1つの因子を持つ因子効果モデル(-1,0,+1)のコード化方式を解釈する例

次の出力を取得するには以下を行います。
  1. 統計 > 回帰 > 回帰 > 回帰モデルの適合を選択します。
  2. 応答応答を入力します。
  3. カテゴリ予測変数因子を入力します。
  4. コード化をクリックします。カテゴリ予測変数のコード化(-1、0、+1)を選択します。
  5. 各ダイアログでOKをクリックします。

回帰分析: 応答対因子

分散分析 調整平 調整平 要因 自由度 方和 均平方 F値 p値 回帰 2 86.00 43.000 32.25 0.000 因子 2 86.00 43.000 32.25 0.000 誤差 9 12.00 1.333 合計 11 98.00
係数 係数の標 項 係数 準誤差 t値 p値 VIF 定数 5.000 0.333 15.00 0.000 因子 A -3.000 0.471 -6.36 0.000 1.33 B -0.500 0.471 -1.06 0.316 1.33
次の全体の平均値と因子水準の平均値を覚えておきます。
  • 全体の平均=5.0
  • A = 2.0
  • B = 4.5
  • C = 8.5

回帰式は次の通りです。

回帰分析: 応答対因子

回帰式 応答 = 5.000 - 3.000 因子_A - 0.500 因子_B + 3.500 因子_C
特定の因子水準の効果は、水準の平均-全体平均です。したがって、
  • 水準Aの効果=2.0-5.0=-3.0
  • 水準Bの効果=4.5-5.0=-0.5
  • 水準Cの効果=8.5-5.0=3.5

切片が全体の平均です。

Aの係数は因子水準Aの効果です。これは、水準Aの平均と全体平均の差です。

Bの係数は因子水準Bの効果です。これは、水準Bの平均と全体平均の差です。

すべての係数(切片を除く)を足して、負の1:-1*[(-3.0)+(-0.5)]= 3.5を掛け合わせることで水準Cの効果の規模を取得できます。

水準平均は効果の規模を計算して全体の平均を足すことで計算できます。
  • 水準Aの平均=Aの係数+切片=-3.0+5.0=2.0
  • 水準Bの平均=Bの係数+切片=-0.5+5.0=4.5
  • 水準Cの平均=切片-Aの係数-Bの係数=5.0–(-3.0)–(-0.5)=5.0+3.0+0.5=8.5

2つの因子を持つケースのコード化方式を解釈する

2つの因子を持つ例のデータ

ここからは、2つの因子を持ち、最初の因子に対して3つの水準、2番めの因子に対して2つの水準を持つバランス型の計画を検討してみましょう。

C1 C2 - T C3 - T
応答 因子1 因子2
1 A
3 A
2 A
2 A
4 B
6 B
3 B
5 B
8 C
9 C
7 C
10 C

2つの因子を持つ例の記述統計量

平均に着目して記述統計量を調べます。

Tabulated Statistics: Factor 1, Factor 2

Rows: Factor 1 Columns: Factor 2 High Low All A 1.500 2.500 2.000 B 3.500 5.500 4.500 C 7.500 9.500 8.500 All 4.167 5.833 5.000 Cell Contents Response : Mean

2つの因子を持つセル平均モデル(0,1)のコード化方式を解釈する例

次の出力を取得するには以下を行います。
  1. 統計 > 回帰 > 回帰 > 回帰モデルの適合を選択します。
  2. 応答応答を入力します。
  3. カテゴリ予測変数因子1因子2を入力します。
  4. コード化をクリックします。カテゴリ予測変数のコード化(1、0)を選択します。
  5. [参照水準]で因子1Cを、因子2を選択します。
  6. 各ダイアログでOKをクリックします。

回帰分析: 応答対因子1, 因子2

係数 項 係数 係数の標準誤差 t値 p値 VIF 定数 9.333 0.391 23.88 0.000 因子1 A -6.500 0.479 -13.58 0.000 1.33 B -4.000 0.479 -8.36 0.000 1.33 因子2 高 -1.667 0.391 -4.26 0.003 1.00
分散分析 要因 自由度 調整平方和 調整平均平方 F値 p値 回帰 3 94.3333 31.4444 68.61 0.000 因子1 2 86.0000 43.0000 93.82 0.000 因子2 1 8.3333 8.3333 18.18 0.003 誤差 8 3.6667 0.4583 不適合 2 0.6667 0.3333 0.67 0.548 純誤差 6 3.0000 0.5000 合計 11 98.0000
次の因子水準の平均値を覚えておきます。
  • A = 2.0
  • B = 4.5
  • C = 8.5

推定回帰式は次のようになります。

Regression Analysis: Response versus Factor 1, Factor 2

Regression Equation Response = 9.333 - 6.500 Factor 1_A - 4.000 Factor 1_B + 0.0 Factor 1_C - 1.667 Factor 2_High + 0.0 Factor 2_Low

また、水準Aに対応する係数は–6.5です。これは依然として水準Aとベースライン水準(水準C)の距離です。水準Aの平均を計算して、ベースライン水準の平均を引く場合、係数2–8.5=-6.5が得られます。

同様に、水準Bに対応する係数はやはり–4.0です。これは水準Bと因子1のベースライン水準の距離です。水準Bの平均を計算して、ベースライン水準の平均を引く場合、係数4.5–8.5=-4.0が得られます。

最終的に、因子2の高い水準に対応する係数は「高」と因子2(低)のベースライン水準の距離になります。このため、因子2の高い水準の平均を計算して、因子2のベースライン水準の平均を引く場合、係数4.1667–5.8333=-1.667が得られます。

2つの因子を持つ因子効果モデル(-1,0,+1)のコード化方式を解釈する例

次の出力を取得するには以下を行います。
  1. 統計 > 回帰 > 回帰 > 回帰モデルの適合を選択します。
  2. 応答応答を入力します。
  3. カテゴリ予測変数因子1因子2を入力します。
  4. コード化をクリックします。カテゴリ予測変数のコード化(-1、0、+1)を選択します。
  5. 各ダイアログでOKをクリックします。

回帰分析: 応答対因子1

分散分析 調整平 調整平 要因 自由度 方和 均平方 F値 p値 回帰 2 86.00 43.000 32.25 0.000 因子1 2 86.00 43.000 32.25 0.000 誤差 9 12.00 1.333 合計 11 98.00
係数 係数の標 項 係数 準誤差 t値 p値 VIF 定数 5.000 0.333 15.00 0.000 因子1 A -3.000 0.471 -6.36 0.000 1.33 B -0.500 0.471 -1.06 0.316 1.33

このコード化方式を使用すると、係数は1つの因子モデルからは変化しませんのでご注意ください。2番目の因子に係数が追加されています。

次に、全体の平均と因子水準平均について考えます。
  • 全体の平均=5.0
  • A = 2.0
  • B = 4.5
  • C = 8.5
  • 高 = 4.1667
  • 低 = 5.8333

回帰式は次の通りです。

回帰分析: 応答対因子1

回帰式 応答 = 5.000 - 3.000 因子1_A - 0.500 因子1_B + 3.500 因子1_C
特定の因子水準の効果は、水準の平均-全体平均です。したがって、
  • 水準Aの効果=2.0-5.0=-3.0
  • 水準Bの効果=4.5-5.0=-0.5
  • 水準Cの効果=8.5-5.0=3.5
  • 水準「高」の効果 = 4.1667–5.0=-0.883
  • 水準「低」の効果=5.8333–5.0=0.883

2つの水準のみがあり、サンプルのサイズに等しい場合、平均が真ん中にあるので、水準の効果の大きさは等しくなります。

切片が全体の平均です。

係数は因子水準ごとの効果です。係数は、水準の平均と全体平均の差を表します。