类别预测变量的编码方案

在对类别预测变量执行回归分析时,Minitab 会使用编码方案来从类别预测变量中选择指示变量。无论模型变得多复杂,解释都是相似的。但是,如果要添加协变量或每组中的样本数量不相等,则系数将基于每个因子水平的加权均值而不是算术均值(观测值的总和除以 n)。但解释通常是相同的:
  • 使用“1、0”编码时,系数表示因子水平及其基准水平之间的距离。
  • 使用“1、0、-1”编码时,系数表示因子水平和总体均值之间的距离。

默认情况下,Minitab 使用 (1,0) 编码方案进行回归,但是,您可以选择在编码子对话框中将编码方案更改为 (-1, 0, +1)。有关更多信息,请转到类别预测变量的编码方案

解释具有一个因子的模型的编码方案

含有单因子的示例的数据

首先,考虑一个单因子平衡设计,该因子有三个水平。

C1 C2 - T
响应 因子
1 A
3 A
2 A
2 A
4 B
6 B
3 B
5 B
8 C
9 C
7 C
10 C

含有单因子的示例的描述性统计

检查描述性统计,主要关注均值。

Descriptive Statistics: Response

Statistics Total Variable Count Mean Response 12 5.000

Descriptive Statistics: Response

Statistics Total Variable Factor Count Mean Response A 4 2.000 B 4 4.500 C 4 8.500

解释含有单因子的单元均值模型 (0, 1) 的编码方案的示例

要获得输出,请执行以下操作:
  1. 选择统计 > 回归 > 回归 > 拟合回归模型
  2. 响应中,输入响应
  3. 类别预测变量中,输入因子
  4. 单击编码。在参考水平下面,选择C
  5. 在每个对话框中单击确定

Regression Analysis: Response versus Factor

Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 8.500 0.577 14.72 0.000 Factor A -6.500 0.816 -7.96 0.000 1.33 B -4.000 0.816 -4.90 0.001 1.33
Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 86.00 43.000 32.25 0.000 Factor 2 86.00 43.000 32.25 0.000 Error 9 12.00 1.333 Total 11 98.00
请记住因子水平均值为:
  • A = 2.0
  • B = 4.5
  • C = 8.5

估计回归方程为:

Regression Analysis: Response versus Factor

Regression Equation Response = 8.500 - 6.500 Factor_A - 4.000 Factor_B + 0.0 Factor_C

水平 C 是基准,因此其系数为 0。

与水平 A 相对应的系数为 –6.5。它是水平 A 与基准水平的差值。如果您提取 A 的系数并将其与截距(或基准均值)相加,则将获得水平 A 的均值:–6.5 + 8.5 = 2.0

同样,与水平 B 相对应的系数为 –4.0。它是水平 B 与基准水平之间的差值。如果您提取水平 B 的系数并将其与截距相加,则将获得水平 B 的均值:–4.0 + 8.5 = 4.5

解释含有单因子的因子效应模型 (-1, 0, +1) 的编码方案的示例

要获得以下输出,请执行以下操作:
  1. 选择统计 > 回归 > 回归 > 拟合回归模型
  2. 响应中,输入响应
  3. 类别预测变量中,输入因子
  4. 单击编码。在类别预测变量编码下面,选择(-1, 0, +1)
  5. 在每个对话框中单击确定

回归分析: 响应 与 因子

方差分析 来源 自由度 Adj SS Adj MS F 值 P 值 回归 2 86.00 43.000 32.25 0.000 因子 2 86.00 43.000 32.25 0.000 误差 9 12.00 1.333 合计 11 98.00
系数 系数标 方差膨 项 系数 准误 T 值 P 值 胀因子 常量 5.000 0.333 15.00 0.000 因子 A -3.000 0.471 -6.36 0.000 1.33 B -0.500 0.471 -1.06 0.316 1.33
请记住总体均值和因子水平均值:
  • 总体均值 = 5.0
  • A = 2.0
  • B = 4.5
  • C = 8.5

回归方程为:

回归分析: 响应 与 因子

回归方程 响应 = 5.000 - 3.000 因子_A - 0.500 因子_B + 3.500 因子_C
任何特定因子水平的效应等于水平均值减去总体均值。因此,
  • 水平 A 效应 = 2.0 - 5.0 = -3.0
  • 水平 B 效应 = 4.5 - 5.0 = -.5
  • 水平 C 效应 = 8.5 - 5.0 = 3.5

截距是总体均值。

A 的系数是系数水平 A 的效应。它是水平 A 均值与总体均值之间的差值。

B 的系数是因子水平 B 的效应。它是水平 B 均值与总体均值之间的差值。

得出水平 C 的效应大小的方法是,将所有系数(截距除外)相加,然后乘以 -1:-1 * [(-3.0) + (-0.5)] = 3.5

可以通过提取效应大小并将总体均值相加来得出水平均值:
  • 水平 A 的均值 = A 的系数 + 截距 = -3.0 + 5.0 = 2.0
  • 水平 B 的均值 = B 的系数 + 截距 = -.5 + 5.0 = 4.5
  • 水平 C 的均值 = 截距 - A 的系数 - B 的系数 = 5.0 – (- 3.0) – (-.5) = 5.0 + 3.0 + .5 = 8.5

解释双因子案例的编码方案

含有两个因子的示例的数据

现在考虑一个双因子平衡设计,第一个因子有三个水平,第二个因子有两个水平。

C1 C2 - T C3 - T
响应 因子 1 因子 2
1 A
3 A
2 A
2 A
4 B
6 B
3 B
5 B
8 C
9 C
7 C
10 C

含有两个因子的示例的描述性统计

检查描述性统计,主要关注均值。

Tabulated Statistics: Factor 1, Factor 2

Rows: Factor 1 Columns: Factor 2 High Low All A 1.500 2.500 2.000 B 3.500 5.500 4.500 C 7.500 9.500 8.500 All 4.167 5.833 5.000 Cell Contents Response : Mean

解释含有两个因子的单元均值模型 (0, 1) 的编码方案的示例

要获得以下输出,请执行以下操作:
  1. 选择统计 > 回归 > 回归 > 拟合回归模型
  2. 响应中,输入响应
  3. 类别预测变量中,输入因子 1因子 2
  4. 单击编码。在类别预测变量编码下面,选择(1, 0)
  5. 在“参考水平”下,选择C作为因子 1,选择作为因子 2
  6. 在每个对话框中单击确定

Regression Analysis: Response versus Factor 1, Factor 2

Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 9.333 0.391 23.88 0.000 Factor 1 A -6.500 0.479 -13.58 0.000 1.33 B -4.000 0.479 -8.36 0.000 1.33 Factor 2 High -1.667 0.391 -4.26 0.003 1.00
Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 3 94.3333 31.4444 68.61 0.000 Factor 1 2 86.0000 43.0000 93.82 0.000 Factor 2 1 8.3333 8.3333 18.18 0.003 Error 8 3.6667 0.4583 Lack-of-Fit 2 0.6667 0.3333 0.67 0.548 Pure Error 6 3.0000 0.5000 Total 11 98.0000
请记住因子水平均值为:
  • A = 2.0
  • B = 4.5
  • C = 8.5

估计回归方程为:

Regression Analysis: Response versus Factor 1, Factor 2

Regression Equation Response = 9.333 - 6.500 Factor 1_A - 4.000 Factor 1_B + 0.0 Factor 1_C - 1.667 Factor 2_High + 0.0 Factor 2_Low

此外,与水平 A 相对应的系数为 –6.5。这仍是水平 A 与基准水平(水平 C)的距离。如果您提取水平 A 的均值并将它减去基准水平的均值,则可以获得系数:2 – 8.5 = -6.5

同样,与水平 B 相对应的系数为 –4.0。它是水平 B 与因子 1 的基准水平的距离。如果您提取水平 B 的均值并将它减去基准水平的均值,则可以获得系数:4.5 - 8.5 = -4.0。

最后,与因子 2 的高水平相对应的系数为“高”与因子 2 的基准水平(低)的距离。因此,如果您提取因子 2 的“高”水平的均值并将它减去因子 2 的基准水平的均值,则获得系数:4.1667 – 5.8333 = -1.667。

解释含有两个因子的因子效应模型 (-1, 0, +1) 的编码方案的示例

要获得以下输出,请执行以下操作:
  1. 选择统计 > 回归 > 回归 > 拟合回归模型
  2. 响应中,输入响应
  3. 类别预测变量中,输入因子 1因子 2
  4. 单击编码。在类别预测变量编码下面,选择(-1, 0, +1)
  5. 在每个对话框中单击确定

回归分析: 响应 与 因子 1

方差分析 来源 自由度 Adj SS Adj MS F 值 P 值 回归 2 86.00 43.000 32.25 0.000 因子 1 2 86.00 43.000 32.25 0.000 误差 9 12.00 1.333 合计 11 98.00
系数 系数标 方差膨 项 系数 准误 T 值 P 值 胀因子 常量 5.000 0.333 15.00 0.000 因子 1 A -3.000 0.471 -6.36 0.000 1.33 B -0.500 0.471 -1.06 0.316 1.33

请注意,使用此编码方案时,系数与单因子模型中相同。现在,对于第二个因子有一个任务的系数。

现在,考虑总体均值和因子水平均值:
  • 总体均值 = 5.0
  • A = 2.0
  • B = 4.5
  • C = 8.5
  • 高 = 4.1667
  • 低 = 5.8333

回归方程为:

回归分析: 响应 与 因子 1

回归方程 响应 = 5.000 - 3.000 因子 1_A - 0.500 因子 1_B + 3.500 因子 1_C
任何特定因子水平的效应等于水平均值减去总体均值。因此,
  • 水平 A 效应 = 2.0 - 5.0 = -3.0
  • 水平 B 效应 = 4.5 - 5.0 = -.5
  • 水平 C 效应 = 8.5 - 5.0 = 3.5
  • 水平“高”效应 = 4.1667 – 5.0 = -.883
  • 水平“低”效应 = 5.8333 – 5.0 = .883
注意

当您仅有两个水平且样本数量相同时,因子效应将在数量级上相等,因为均值正好居中。

截距是总体均值。

系数为每个因子水平的效应。它们代表相应水平的均值与总体均值之间的差值。