使用交叉验证的偏最小二乘回归的示例

一位葡萄酒制造商想了解葡萄酒中的化学成分与感官评价之间的关系。他有 37 个 Pinot Noir 样本,每个样本都由 17 种元素浓度(Cd、Mo、Mn、Ni、Cu、Al、Ba、Cr、Sr、Pb、B、Mg、Si、Na、Ca、P、K)和一组评审员根据葡萄酒的芳香度给出的分值描述。他想根据这 17 种元素浓度预测芳香度分值。数据来源:I.E. Frank 和 B.R. Kowalski (1984)。“Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling”(通过偏最小二乘回归建模根据化学测量值预测葡萄酒质量和地理起源),Analytica Chimica Acta(分析化学学报),第 162 页和第 241 到 251 页。

该制造商想包含所有浓度和所有将镉 (Cd) 包含在模型中的双因子交互作用。由于预测变量的样本比率较低,因此制造商决定使用偏最小二乘回归。

  1. 打开样本数据 葡萄酒芳香度.MTW
  2. 选择统计 > 回归 > 偏最小二乘
  3. 响应中,输入芳香度
  4. 模型中,输入Cd-KCd*MoCd*MnCd*NiCd*CuCd*AlCd*BaCd*CrCd*SrCd*PbCd*BCd*MgCd*SiCd*NaCd*CaCd*PCd*K
  5. 单击选项
  6. 交叉验证下,选择逐一剔除法。单击确定
  7. 单击图形。选择模型选择图。取消选中响应图系数图
  8. 单击每个对话框中的确定

解释结果

模型选择图会将具有 4 个分量的模型标识为最优模型,因为 4 分量模型的预测 R2 值最高。图中的预测 R2 值是使用交叉验证计算的。模型选择和验证表显示最优模型的预测 R2 值约为 0.56。Minitab 会将最优模型用于方差分析的计算。最优模型在显著性水平为 0.05 时具有统计显著性,因为 P 值约为 0.000。

方法

交叉验证逐一剔除法
要估算的分量集合
已估算的分量数10
已选定的分量数4

芳香度 的方差分析

来源自由度SSMSFP
回归434.55148.6378441.550.000
残差误差326.65190.20787   
合计3641.2032     

芳香度 的模型选择和验证

分量X 方差误差R-SqPRESSR-Sq(预测)
10.15884914.93890.63743523.34390.433444
20.44226712.29660.70156421.09360.488060
30.5229777.97610.80642019.61360.523978
40.5945466.65190.83855918.16830.559056
5  5.85300.85794819.26750.532379
6  5.01230.87835222.37390.456988
7  4.31090.89537424.00410.417421
8  4.08660.90081824.77360.398747
9  3.58860.91290424.90900.395460
10  3.27500.92051624.82930.397395