什么是交叉验证?

交叉验证用于计算潜在模型的预测能力,以帮助您确定要保留在模型中的相应分量数。如果不知道最优的分量数,最好使用交叉验证。当数据包含多个响应变量时,Minitab 同时验证所有响应变量的分量。

交叉验证方法

Minitab 可以执行三种不同的交叉验证方法:
逐一剔除法
计算潜在模型时一次排除一个观测值。对于大型数据集,此方法可能很费时,因为重新计算模型的次数相当于观测值的数量。
成组剔除个数
计算模型时一次排除多个观测值,从而减少必须重新计算模型的次数。此方法最适用于大型数据集。
剔除值所在的列
计算模型时,同时排除在组标识符列(在工作表中创建)中具有相似数字的观测值。此方法可用于指定同时忽略哪些观测值。例如,如果组标识符列包括数字 1、2 和 3,则同时忽略所有含 1 的观测值,并重新计算模型。接下来,忽略所有含 2 的观测值,并重新计算模型,以此类推。在本例中,模型一共重新计算 3 次。组标识符列必须与响应和预测变量列等长,且不能包含缺失值。

交叉验证过程

对于每个潜在模型,Minitab 将进行以下操作:
  1. 根据交叉验证方法,忽略一个观测值或一组观测值。
  2. 不考虑该观测值/观测值组的情况下,重新计算模型。
  3. 使用重新计算的模型预测忽略的观测值/观测值组的响应或交叉验证的拟合值,并计算交叉验证残差值。
  4. 重复步骤 1 - 3,直到忽略并拟合所有的观测值。
  5. 计算预测平方和 (PRESS) 和预测的 R2 值。

对每个模型执行步骤 1-5 后,Minitab 将选择具有可以产生最高的预测 R2 和最低的 PRESS 的分量数的模型。具有多重响应变量时,Minitab 将选择具有最高平均预测 R2 和最低平均 PRESS 的模型。

如果不使用交叉验证,Minitab 会将分量数设置为 10 或模型中的预测变量数两者中较小的那个值。

交叉验证统计量

执行交叉验证时,Minitab 会显示另一个摘要表,其中包括下列统计量:
交叉验证的拟合值

在 PLS 回归中,交叉验证的拟合值是数据集中的每个观测值的预测响应,它是单独计算的,所以该观测值可以从用于计算其预测响应的模型中剔除。交叉验证的拟合值是在交叉验证期间计算的,根据每次重新计算模型时忽略的观测值数的不同而有所不同。

使用交叉验证的拟合值标识模型对数据的预测优度。交叉验证的拟合值与普通的拟合值相似,后者表示模型对数据的拟合优度。

交叉验证的残差

在 PLS 回归中,交叉验证的残差是实际响应变量与交叉验证拟合值之间的差。交叉验证的残差值会根据交叉验证期间每次重新计算模型时忽略的观测值数的不同而有所不同。

残差可度量模型的预测能力。Minitab 使用交叉验证的残差计算 PRESS 统计量。