偏最小二乘回归的模型选择和验证表

请查找定义和解释指导,了解模型选择表中的每个统计量。

分量

该分量表示每个模型中包括的分量数。Minitab 显示的模型具有 1 个分量、2 个分量,以此类推,直到该模型包括您指定的分量数。如果您未指定模型中要包括的分量数,Minitab 会显示 10 个分量的模型选择统计量或预测变量数(以较小者为准)。

X 方差

X 方差是项中由模型解释的方差量。X 方差值介于 0 到 1 之间。

X 方差值越接近于 1,分量表示一组原始项的效果越好。如果具有多个响应,则所有响应的 X 方差值都相同。

误差

该误差是误差平方和,也是残差平方和。它可以量化数据中无法由模型解释的变异。对于最终的模型,误差与最终模型的方差分析表中的残差误差的 SS 匹配。

R-sq

R2 是由模型解释的响应中的变异百分比。它由 1 减去误差平方和(未由模型解释的变异)与平方总和(模型的总变异)之比计算得出。

解释

使用 R2 来确定模型与数据的拟合优度。R2 值越高,模型拟合数据的优度越高。R2 始终介于 0% 和 100% 之间。

您可以使用拟合线图以图形的方式说明不同的 R2 值。第一个图说明了解释响应中 85.5% 变异的简单回归模型。第二个图说明了解释响应中 22.6% 变异的模型。模型解释的变异越多,数据点距离拟合回归线越近。从理论上讲,如果模型可以解释 100% 的变异,则拟合值将始终等于观测值,并因此所有数据点都将落于拟合线上。但是,即便 R2 为 100%,模型也不需要准确地预测新观测值。
当解释 R2 值时,请考虑以下问题:
  • 如果向模型添加其他预测变量,则 R2 会始终增加。例如,最佳的 5 预测变量模型的 R2 始终比最佳的 4 预测变量模型的高。因此,比较相同大小的模型时 R2 最有效。

  • 样本数量较小则不能提供对于响应变量和预测变量之间关系强度的精确估计。如果需要 R2 更为精确,则应当使用较大的样本(通常为 40 或更多)。

  • 拟合优度统计量只是模型拟合数据优度的一种度量。即使模型具有合意的值,您也应当检查残差图,以验证模型是否符合模型假设。

R-sq(预测)

预测的 R2 说明每个计算的模型预测响应的优良程度,并且仅在执行交叉验证时进行计算。如果数据中有一个响应变量,Minitab 将选择具有最高预测 R2 的 PLS 模型。如果数据中有多个响应变量,Minitab 将针对所有的响应变量选择具有最高均值预测 R2 的 PLS 模型。预测的 R2 的计算过程是从数据集中系统地删除每个观测值,估计回归方程,然后确定模型对已删除观测值的预测优度。预测的 R2 值的范围在 0% 和 100% 之间。(当预测的 R2 的计算可以产生负值时,Minitab 会针对这些情况显示零。)

解释

使用预测的 R2 可确定模型对新观测值的响应进行预测的程度。具有较大预测 R2 值的模型的预测能力也较出色。

实质上小于 R2 的预测的 R2 可能表明模型过度拟合。在向总体中添加不太重要的影响项的情况下,可能会发生过度拟合模型。模型针对样本数据而定制,因此可能对于总体预测不太有效。

要确定由交叉验证选择的模型是否最合适,请检查 R2 和预测的 R2 值。在某些情况下,可以会决定使用由交叉验证所选择的模型之外的其他模型。请考虑这样的示例:向 Minitab 所选择的模型添加两个分量会显著提高 R2 而只轻微降低预测的 R2。由于预测 R2 只是轻微降低,因此该模型不会过度拟合,且可以确定它比较适合您的数据。

PRESS

预测误差平方和 (PRESS) 是对拟合值与观测值之间偏差的度量。PRESS 近似于残差误差平方和 (SSE),该平方和是平方残差的总和。但是,PRESS 使用不同的残差计算方法。用于计算 PRESS 的公式相当于从数据集中系统地删除每个观测值、估计回归方程,然后确定模型对已删除观测值的预测能力的一系列过程。

解释

使用 PRESS 可评估模型的预测能力。通常,PRESS 值越小,模型的预测能力越强。Minitab 使用 PRESS 来计算预测的 R2(通常解释起来更直观)。同时,这些统计量还可以阻止过度拟合模型。在向总体中添加不太重要的效应项的情况下(尽管它们在样本数据中看起来比较重要),可能会产生过度拟合模型。模型针对样本数据而定制,因此可能对于总体预测不太有效。