什么是偏最小二乘回归?

偏最小二乘 (PLS) 回归是将预测变量减少为较小的一组不相关分量并对这些分量(而不是原始数据)执行最小二乘回归的方法。当预测变量高度共线,或者预测变量比观测值多并且普通的最小二乘回归所产生的系数标准误高或完全失败时,PLS 回归特别有用。与多个回归不同,PLS 不会假设预测变量是固定的。这意味着预测变量的测量可能会有误差,使 PLS 的测量更具不确定性。

PLS 回归主要用在化学、药品、食品和塑料工业中。常见应用是为光谱测量值(NIR、IR、UV)之间的关系建模,其中包括通常彼此相关的许多变量、化学成分或其他物理化学属性。在 PLS 回归中,重点是建立预测模型。因此,通常不用来筛选在解释响应时无用的变量。

执行 PLS 时,Minitab 会使用 Herman Wold 开发的非线性迭代偏最小二乘 (NIPALS) 算法。该算法使用与主成分分析相似的方法来减少预测变量数,以便提取一组描述预测变量和响应变量之间最大相关性的分量。PLS 可以计算与预测变量一样多的分量;通常,使用交叉验证可找出预测能力最大的最小分量集。如果计算所有可能的分量,生成的模型将与使用最小二乘回归获得的模型等效。在 PLS 中,分量的选择基于分量在预测变量中以及在预测变量与响应之间解释的方差大小。如果预测变量间高度相关,或者使用更少分量便完全可以为响应建模,则 PLS 模型中的分量数可能比预测变量数少得多。随后,Minitab 会对这些无关分量执行最小二乘回归。

与最小二乘回归不同的是,PLS 可以在单个模型中拟合多个响应变量。PLS 回归可拟合单个模型中的多个响应变量。因为 PLS 回归以多元方式对响应变量进行建模,所以结果可能与为响应变量单独计算得出的值显著不同。仅在多个响应互不相关时才单独对这些响应建模。