什么是类别预测变量的编码方案?

在对类别预测变量执行最小二乘、Logistic 或 Poisson 回归分析时,Minitab 会使用编码方案来从类别预测变量中选择指示变量。默认编码方案是 1、0(又称为二元编码和虚拟编码),通常用在回归分析中。
  • 使用 1, 0 编码时,系数表示因子水平和参考水平之间的距离。
  • 使用“1、0、-1”编码时,系数表示因子水平和总体均值之间的距离。
对于使用 1、0 进行编码的预测变量,默认情况下,Minitab 会根据数据类型设置以下参考水平:
  • 对于数字类别预测变量,参考水平为数值最小的水平。
  • 对于日期/时间类别预测变量,参考水平为日期/时间最早的水平。
  • 对于文本类别预测变量,默认情况下,参考水平为按字母顺序排列的第一个水平。
对于使用 -1、0、1 进行编码的预测变量,默认情况下,Minitab 会根据数据类型设置以下参考水平:
  • 对于数字类别预测变量,参考水平为数值最大的水平。
  • 对于日期/时间类别预测变量,参考水平为日期/时间最新的水平。
  • 对于文本类别预测变量,参考水平为按字母顺序排列的最后一个水平。

如何更改编码方案

在回归分析(拟合回归模型拟合二元 Logistic 模型)中,Minitab 默认使用 1、0 编码。如果您想要将编码方案更改为 -1、0、1,请转到编码子对话框。对于 偏最小二乘回归,可以在选项子对话框中更改参考水平。

编码方案的工作原理

要在一般回归模型中包含类别预测变量,Minitab 会对这些类别进行编码,使它们可以包含在回归方程中。回归会自动执行此操作,并基于所使用的编码方案为类别预测变量创建列。会为参考水平以外的每个因子水平创建一列代码。Minitab 将创建列并且当行属于列组时指定 1 编码。不会为参考水平创建列。有关编码方案和设计矩阵的更多信息,请转到Minitab 如何使用回归的设计矩阵

下面的几个示例显示位置类别预测变量的编码方案工作原理,其中,位置具有以下三个水平:香港、伦敦和纽约。如果编码方案为 -1、0、1,则默认参考水平为纽约。不会为纽约创建任何列,与纽约相对应的系数将不出现在输出的系数表中。会为香港和伦敦各创建一列,如果任何列所在的行与纽约(参考水平)相对应,则会为它指定 -1。

如果位置是 香港 伦敦
香港 1 0
伦敦 0 1
纽约 -1 -1

如果编码方案为 1、0,则默认参考水平为香港,因为它在字母顺序中排在第一位。不会为香港创建任何列,而且与香港相对应的系数将不出现在输出的系数表中。会为香港和纽约各创建一列。

如果位置是 伦敦 纽约
香港 0 0
伦敦 1 0
纽约 0 1

有关解释拟合回归模型系数的更多信息,请转到解释类别预测变量

有关解释拟合二元 Logistic 回归系数的更多信息,请转到解释二元 Logistic 回归的估计系数