什么是多重共线性?

回归中的多重共线性是一个当模型中一些预测变量与其他预测变量相关时发生的条件。严重的多重共线性可能会产生问题,因为它可以增大回归系数的方差,使它们变得不稳定。以下是不稳定系数导致的一些后果:
  • 即使预测变量和响应之间存在显著关系,系数也可能看起来并不显著。
  • 高度相关的预测变量的系数在样本之间差异很大。
  • 从模型中去除任何高度相关的项都将大幅影响其他高度相关项的估计系数。高度相关项的系数甚至会包含错误的符号。

要度量多重共线性,可以检查预测变量的相关性结构。您也可以查看方差膨胀因子 (VIF)。VIF 用于在您的预测变量相关时,度量估计回归系数的方差增加的幅度。如果所有 VIF 都为 1,则不存在多重共线性,但如果有些 VIF 大于 1,则预测变量为相关。VIF 大于 5 时,该项的回归系数的估计结果不理想。如果某个预测变量与其他预测变量的关联接近完美,则 Minitab 将显示一条消息,指出无法估计该项。无法估计的项的 VIF 值数通常超过十亿。

多重共线性不会影响拟合优度和预测优度。系数(线性判别函数)无法可靠地进行解译,但拟合(分类)值不会受到影响。

注意

多重共线性在判别分析中的效应与在回归中相同。

Minitab 如何从回归方程中删除高度相关的预测变量

要从回归方程中删除高度相关的预测变量,Minitab 将执行以下步骤:
  1. Minitab 对 X 矩阵执行 QR 分解。
    注意

    与最小二乘回归相比,QR 分解计算 R2 的速度更快。

  2. Minitab 针对所有其他预测变量对某个预测变量进行回归,并计算 R2 值。如果 1 - R2 < 4 * 2.22e-016,则该预测变量将无法通过检验,并会将其从模型中删除。
  3. Minitab 对剩余预测变量重复步骤 1 和 2。

示例

假设模型包含预测变量 X1、X2、X3、X4 和 X5 以及响应 Y,Minitab 将执行以下操作:
  1. Minitab 针对 X1-X4 对 X5 进行回归。如果 1 - R2 大于 4 * 2.22e-016,则 X5 保留在方程中。X5 将通过检验并保留在方程中。
  2. Minitab 针对 X1、X2、X3 和 X5 对 X4 进行回归。假设此回归的 1 - R2 大于 4 * 2.22e-016,因此保留在方程中。
  3. Minitab 针对 X1、X2、X4 和 X5 对 X3 进行回归并计算 R2 值。X3 将无法通过检验并从方程中删除。
  4. Minitab 在 X 矩阵上执行新的 QR 分解,并针对剩余预测变量 X1、X4 和 X5 对 X2 进行回归。X2 将通过检验。
  5. Minitab 针对 X2、X4 和 X5 对 X1 进行回归。它将无法通过检验并会从方程中删除。

Minitab 针对 X2、X4 和 X5 对 Y 进行回归。结果包括一条消息,指出无法估计预测变量 X1 和 X3 并已将其从模型中删除。

注意

您可以使用 REGRESS 会话命令的 TOLERANCE 子命令来强制 Minitab 将某个预测变量保留在与另一个预测变量高度关联的模型中。但是,降低公差会很危险,可能会产生不准确的数字结果。

多重共线性的纠正方法

严重多重共线性的可能解决办法:
  • 如果要对多项式进行拟合,请将预测变量值减去预测变量的均值。
  • 从模型中删除那些高度相关的预测变量。由于它们提供了冗余信息,因此删除它们通常不会显著减少 R2。考虑使用逐步回归、最佳子集回归或数据集的专门知识来删除这些变量。
  • 使用偏最小二乘主成分分析。这些方法可以将预测变量的数量减少为更小的不相关分量集。

例如,某玩具制造商希望预测客户满意度,他们将“强度”和“没有破损”作为预测变量包括在回归模型中。调查者可以确定这两个变量具有强烈负相关,并且 VIF 大于 5。此时,调查者可以试图删除其中一个变量,也可以在偏最小二乘主成分分析中使用这些相关变量创建“耐久性”分量。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策