类别预测变量的编码方案

关于本主题

什么是类别预测变量的编码方案？
如何更改编码方案
编码方案的工作原理

什么是类别预测变量的编码方案？

在对类别预测变量执行最小二乘、Logistic 或 Poisson 回归分析时，Minitab 会使用编码方案来从类别预测变量中选择指示变量。默认编码方案是 1、0（又称为二元编码和虚拟编码），通常用在回归分析中。

使用 1, 0 编码时，系数表示因子水平和参考水平之间的距离。
使用“1、0、-1”编码时，系数表示因子水平和总体均值之间的距离。

对于使用 1、0 进行编码的预测变量，默认情况下，Minitab 会根据数据类型设置以下参考水平：

对于数字类别预测变量，参考水平为数值最小的水平。
对于日期/时间类别预测变量，参考水平为日期/时间最早的水平。
对于文本类别预测变量，默认情况下，参考水平为按字母顺序排列的第一个水平。

对于使用 -1、0、1 进行编码的预测变量，默认情况下，Minitab 会根据数据类型设置以下参考水平：

对于数字类别预测变量，参考水平为数值最大的水平。
对于日期/时间类别预测变量，参考水平为日期/时间最新的水平。
对于文本类别预测变量，参考水平为按字母顺序排列的最后一个水平。

如何更改编码方案

在回归分析（拟合回归模型和拟合二元 Logistic 模型）中，Minitab 默认使用 1、0 编码。如果您想要将编码方案更改为 -1、0、1，请转到编码子对话框。对于偏最小二乘回归，可以在选项子对话框中更改参考水平。

编码方案的工作原理

要在一般回归模型中包含类别预测变量，Minitab 会对这些类别进行编码，使它们可以包含在回归方程中。回归会自动执行此操作，并基于所使用的编码方案为类别预测变量创建列。会为参考水平以外的每个因子水平创建一列代码。Minitab 将创建列并且当行属于列组时指定 1 编码。不会为参考水平创建列。有关编码方案和设计矩阵的更多信息，请转到Minitab 如何使用回归的设计矩阵。

下面的几个示例显示位置类别预测变量的编码方案工作原理，其中，位置具有以下三个水平：香港、伦敦和纽约。如果编码方案为 -1、0、1，则默认参考水平为纽约。不会为纽约创建任何列，与纽约相对应的系数将不出现在输出的系数表中。会为香港和伦敦各创建一列，如果任何列所在的行与纽约（参考水平）相对应，则会为它指定 -1。

如果位置是	香港	伦敦
香港	1	0
伦敦	0	1
纽约	-1	-1

如果编码方案为 1、0，则默认参考水平为香港，因为它在字母顺序中排在第一位。不会为香港创建任何列，而且与香港相对应的系数将不出现在输出的系数表中。会为香港和纽约各创建一列。

如果位置是	伦敦	纽约
香港	0	0
伦敦	1	0
纽约	0	1

有关解释拟合回归模型系数的更多信息，请转到解释类别预测变量。

有关解释拟合二元 Logistic 回归系数的更多信息，请转到解释二元 Logistic 回归的估计系数。