类别预测变量的编码方案

在对类别预测变量执行回归分析时,Minitab 会使用编码方案来从类别预测变量中选择指示变量。无论模型变得多复杂,解释都是相似的。但是,如果要添加协变量或每组中的样本数量不相等,则系数将基于每个因子水平的加权均值而不是算术均值(观测值的总和除以 n)。但解释通常是相同的:
  • 使用“1、0”编码时,系数表示因子水平及其基准水平之间的距离。
  • 使用“1、0、-1”编码时,系数表示因子水平和总体均值之间的距离。

默认情况下,Minitab 使用 (1,0) 编码方案进行回归,但是,您可以选择在编码子对话框中将编码方案更改为 (-1, 0, +1)。有关更多信息,请转到类别预测变量的编码方案

解释具有一个因子的模型的编码方案

含有单因子的示例的数据

首先,考虑一个三个水平单因子平衡设计。

C1 C2 - T
响应 因子
1 A
3 A
2 A
2 A
4 B
6 B
3 B
5 B
8 C
9 C
7 C
10 C

含有单因子的示例的描述性统计

检查描述性统计,主要关注均值。

统计量 变量 总计数 均值 响应 12 5.000
统计量 变量 因子 总计数 均值 响应 A 4 2.000 B 4 4.500 C 4 8.500

解释含有单因子的单元均值模型 (0, 1) 的编码方案的示例

要获得输出,请执行以下操作:
  1. 选择统计 > 回归 > 回归 > 拟合回归模型
  2. 响应中,输入响应
  3. 类别预测变量中,输入因子
  4. 单击编码。在参考水平下,选择C
  5. 在每个对话框中单击确定
系数 系数标 方差膨 项 系数 准误 T 值 P 值 胀因子 常量 8.500 0.577 14.72 0.000 因子 A -6.500 0.816 -7.96 0.000 1.33 B -4.000 0.816 -4.90 0.001 1.33
方差分析 来源 自由度 Adj SS Adj MS F 值 P 值 回归 2 86.00 43.000 32.25 0.000 因子 2 86.00 43.000 32.25 0.000 误差 9 12.00 1.333 合计 11 98.00
请记住因子水平均值为:
  • A = 2.0
  • B = 4.5
  • C = 8.5

估计回归方程为:

回归方程 响应 = 8.500 - 6.500 因子_A - 4.000 因子_B + 0.0 因子_C

水平 C 是基准,因此其系数为 0。如果只有一个因子,则截距等于基准水平的均值。

与水平 A 相对应的系数为 –6.5。它是水平 A 与基准水平的差值。如果您提取 A 的系数并将其与截距(或基准均值)相加,则将获得水平 A 的均值:–6.5 + 8.5 = 2.0

同样,与水平 B 相对应的系数为 –4.0。它是水平 B 与基准水平之间的差值。如果您提取水平 B 的系数并将其与截距相加,则将获得水平 B 的均值:–4.0 + 8.5 = 4.5

解释含有单因子的因子效应模型 (-1, 0, +1) 的编码方案的示例

要获得以下输出,请执行以下操作:
  1. 选择统计 > 回归 > 回归 > 拟合回归模型
  2. 响应中,输入响应
  3. 类别预测变量中,输入因子
  4. 单击编码。在类别预测变量编码下,选择(-1, 0, +1)
  5. 在每个对话框中单击确定

回归分析: 响应 与 因子

方差分析 来源 自由度 Adj SS Adj MS F 值 P 值 回归 2 86.00 43.000 32.25 0.000 因子 2 86.00 43.000 32.25 0.000 误差 9 12.00 1.333 合计 11 98.00
系数 系数标 方差膨 项 系数 准误 T 值 P 值 胀因子 常量 5.000 0.333 15.00 0.000 因子 A -3.000 0.471 -6.36 0.000 1.33 B -0.500 0.471 -1.06 0.316 1.33
请记住总体均值和因子水平均值:
  • 总体均值 = 5.0
  • A = 2.0
  • B = 4.5
  • C = 8.5

回归方程为:

回归分析: 响应 与 因子

回归方程 响应 = 5.000 - 3.000 因子_A - 0.500 因子_B + 3.500 因子_C
任何特定因子水平的效应等于水平均值减去总体均值。因此,
  • 水平 A 效应 = 2.0 - 5.0 = -3.0
  • 水平 B 效应 = 4.5 - 5.0 = -0.5
  • 水平 C 效应 = 8.5 - 5.0 = 3.5

截距是总体均值。

A 的系数是因子水平 A 的效应。它是水平 A 均值与总体均值之间的差值。

B 的系数是因子水平 B 的效应。它是水平 B 均值与总体均值之间的差值。

得出水平 C 的效应大小的方法是,将所有系数(截距除外)相加,然后乘以 -1:-1 * [(-3.0) + (-0.5)] = 3.5

可以通过提取效应大小并将总体均值相加来得出水平均值:
  • 水平 A 的均值 = A 的系数 + 截距 = -3.0 + 5.0 = 2.0
  • 水平 B 的均值 = B 的系数 + 截距 = -0.5 + 5.0 = 4.5
  • 水平 C 的均值 = 截距 - A 的系数 - B 的系数 = 5.0 – (- 3.0) – (-0.5) = 5.0 + 3.0 + 0.5 = 8.5

解释双因子案例的编码方案

含有两个因子的示例的数据

现在考虑一个双因子平衡设计,第一个因子有三个水平,第二个因子有两个水平。

C1 C2 - T C3 - T
响应 因子 1 因子 2
1 A
3 A
2 A
2 A
4 B
6 B
3 B
5 B
8 C
9 C
7 C
10 C

含有两个因子的示例的描述性统计

检查描述性统计,主要关注均值。

行: 因子 1 列: 因子 2 低 高 全部 A 2.500 1.500 2.000 B 5.500 3.500 4.500 C 9.500 7.500 8.500 全部 5.833 4.167 5.000 单元格内容 响应 : 均值

解释含有两个因子的单元均值模型 (0, 1) 的编码方案的示例

要获得以下输出,请执行以下操作:
  1. 选择统计 > 回归 > 回归 > 拟合回归模型
  2. 响应中,输入响应
  3. 类别预测变量中,输入因子 1因子 2
  4. 单击编码。在类别预测变量编码下,选择(1, 0)
  5. 在“参考水平”下,选择C作为因子 1,选择作为因子 2
  6. 在每个对话框中单击确定
系数 系数标 方差膨 项 系数 准误 T 值 P 值 胀因子 常量 9.333 0.391 23.88 0.000 因子 1 A -6.500 0.479 -13.58 0.000 1.33 B -4.000 0.479 -8.36 0.000 1.33 因子 2 高 -1.667 0.391 -4.26 0.003 1.00
方差分析 来源 自由度 Adj SS Adj MS F 值 P 值 回归 3 94.3333 31.4444 68.61 0.000 因子 1 2 86.0000 43.0000 93.82 0.000 因子 2 1 8.3333 8.3333 18.18 0.003 误差 8 3.6667 0.4583 失拟 2 0.6667 0.3333 0.67 0.548 纯误差 6 3.0000 0.5000 合计 11 98.0000
请记住因子水平均值为:
  • A = 2.0
  • B = 4.5
  • C = 8.5

估计回归方程为:

回归方程 响应 = 9.333 - 6.500 因子 1_A - 4.000 因子 1_B + 0.0 因子 1_C + 0.0 因子 2_低 - 1.667 因子 2_高

此外,与水平 A 相对应的系数为 –6.5。这仍是水平 A 与基准水平(水平 C)的距离。如果您提取水平 A 的均值并将它减去基准水平的均值,则可以获得系数:2 – 8.5 = -6.5

同样,与水平 B 相对应的系数仍为 –4.0。它是水平 B 与因子 1 的基准水平的距离。如果您提取水平 B 的均值并将它减去基准水平的均值,则可以获得系数:4.5 - 8.5 = -4.0。

最后,与因子 2 的高水平相对应的系数为“高”与因子 2 的基准水平(低)的距离。因此,如果您提取因子 2 的“高”水平的均值并将它减去因子 2 的基准水平的均值,则获得系数:4.1667 – 5.8333 = -1.667。

解释含有两个因子的因子效应模型 (-1, 0, +1) 的编码方案的示例

要获得以下输出,请执行以下操作:
  1. 选择统计 > 回归 > 回归 > 拟合回归模型
  2. 响应中,输入响应
  3. 类别预测变量中,输入因子 1因子 2
  4. 单击编码。在类别预测变量编码下,选择(-1, 0, +1)
  5. 在每个对话框中单击确定

回归分析: 响应 与 因子 1

方差分析 来源 自由度 Adj SS Adj MS F 值 P 值 回归 2 86.00 43.000 32.25 0.000 因子 1 2 86.00 43.000 32.25 0.000 误差 9 12.00 1.333 合计 11 98.00
系数 系数标 方差膨 项 系数 准误 T 值 P 值 胀因子 常量 5.000 0.333 15.00 0.000 因子 1 A -3.000 0.471 -6.36 0.000 1.33 B -0.500 0.471 -1.06 0.316 1.33

请注意,使用此编码方案时,单因子模型中的系数不变。现在,第二个因子具有另一个的系数。

现在,考虑总体均值和因子水平均值:
  • 总体均值 = 5.0
  • A = 2.0
  • B = 4.5
  • C = 8.5
  • 高 = 4.1667
  • 低 = 5.8333

回归方程为:

回归分析: 响应 与 因子 1

回归方程 响应 = 5.000 - 3.000 因子 1_A - 0.500 因子 1_B + 3.500 因子 1_C
任何特定因子水平的效应等于水平均值减去总体均值。因此,
  • 水平 A 效应 = 2.0 - 5.0 = -3.0
  • 水平 B 效应 = 4.5 - 5.0 = -0.5
  • 水平 C 效应 = 8.5 - 5.0 = 3.5
  • 水平“高”效应 = 4.1667 – 5.0 = -0.883
  • 水平“低”效应 = 5.8333 – 5.0 = .883
注意

当您仅有两个水平且样本数量相同时,因子效应将在数量级上相等,因为均值正好居中。

截距是总体均值。

系数为每个因子水平的效应。它们代表相应水平的均值与总体均值之间的差值。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策