线性回归指定分类变量和连续变量的 拟合回归模型编码

统计 > 回归 > 回归 > 拟合回归模型 > 编码

预测分析模块 > 线性回归 > 编码

类别变量的编码

类别预测变量编码
要执行分析,Minitab 需要使用两种方法中的一种来对类别预测变量重新编码。请根据是要将预测变量水平与总体平均值还是参考水平平均值进行比较来考虑改变方法。编码架构不会改变对预测变量总体效应的检验。有关更多信息,请转到类别预测变量的编码方案
  • (-1, 0, +1):选择该项可估计每个水平平均值和总体平均值之间的差分。
  • (1, 0):选择以估计每个水平均值和参考水平均值之间的差分。如果选择 (1, 0) 编码方案,参考水平表会在对话框中激活。
参考水平表格
类别预测变量
该表格中的这一列显示了模型中类别预测变量的所有名称。此列不接受任何输入。
参考水平

Minitab 会比较非参考水平与参考水平的均值。更改参考水平不会影响整体显著性,但可能会让要解释的系数更有意义。

对于使用 1、0 进行编码的预测变量,默认情况下,Minitab 会根据数据类型设置以下参考水平:
  • 对于数字类别预测变量,参考水平为数值最小的水平。
  • 对于日期/时间类别预测变量,参考水平为日期/时间最早的水平。
  • 对于文本类别预测变量,默认情况下,参考水平为按字母顺序排列的第一个水平。有关更改文本变量值顺序的更多信息,请转到 更改 Minitab 输出中文本值的显示顺序

标准化连续预测变量

您可以选择标准化模型中的连续预测变量。标准化预测变量仅用于拟合模型,不会存储在工作表中。

标准化连续预测变量可以在特定条件下改善模型的解释。
  1. 通过减去平均值使连续预测变量处于中间位置:此方法有助于降低多重共线性,从而提高系数估计的精确度。当模型中包含高度相关的预测变量、高阶项和交互项时,此方法非常有用。每个系数表示在使用原始测量尺度的情况下,预测变量发生一个单位的变化时响应变量的预期变化。
  2. 通过除以标准差来标准化连续预测变量的尺度:此方法可使预测变量的范围更具同质性,以便比较系数的大小。当您需要了解哪些预测变量具有较大效应并控制尺度差异时,此方法非常有用。但是,每个系数表示预测变量中的一个标准差发生变化时响应变量的预期变化。
使用以下方法之一标准化连续预测变量:
  • 不标准化:对连续预测变量使用原始数据。
  • 将要编码的低水平和高水平指定为 -1 和 +1:用于使预测变量处于中间位置,然后将其置于可比较尺度上。Minitab 将此方法用于试验设计 (DOE)。转换介于您指定的低值和高值之间的所有数据值,使这些值的范围介于 −1 和 +1 之间。在该表格中,输入低值和高值或使用样本中默认的最小值和最大值。
    连续预测变量
    显示模型中所有连续预测变量的名称。此列不接受任何输入。
    输入值为 −1 的代码。默认值是样本中的最小值。
    输入值为 +1 的代码。默认值为样本中的最大值。
  • 减去均值,然后除以标准差:用于使预测变量处于中间位置,然后将其置于可比较尺度上。
  • 减去均值:用于使预测变量处于中间位置。
  • 除以标准差:对所有预测变量使用可比较尺度。
  • 减去指定值,然后除以另一个值:指定其他值,而不是使用样本中的平均值和标准差估计值。
    连续预测变量
    显示模型中所有连续预测变量的名称。此列不接受任何输入。
    输入每个连续预测变量要减去的值。
    除以
    输入 Minitab 用于除以相减结果的值。