使用检验数据集的偏最小二乘回归的示例

食品化学实验室的科学家分析 60 个豆粉样本。科学家确定每个样本的含水量和脂肪含量,并记录 88 个波长处的近红外 (NIR) 光谱数据。科学家从这 60 个样本中随机选择 54 个样本,并使用 PLS 回归来估计响应(含水量和脂肪)和预测变量(88 个 NIR 波长)之间的关系。科学家使用其余的 6 个样本作为检验数据集来评估模型的预测能力。

  1. 打开样本数据 大豆粉.MTW
  2. 选择统计 > 回归 > 偏最小二乘
  3. 响应中,输入湿度脂肪
  4. 模型中,输入1'-'88
  5. 单击预测
  6. 连续预测变量的新观测值中,输入测试1-测试88
  7. 响应的新观测值 (可选)中,输入湿度2脂肪2
  8. 单击每个对话框中的确定

解释结果

两个响应变量的 P 值约为 0.000,该值小于显著性水平 0.05。这些结果指示模型中至少有一个系数不等于零。湿度的检验 R2 值约为 0.9。脂肪的检验 R2 值约为 0.8。检验 R2 统计量指示模型的预测效果良好。每个响应的分析分别提供不同的结果。

方法

交叉验证
要计算的分量集合
已计算的分量数10

湿度 的方差分析

来源自由度SSMSFP
回归10468.51646.851661.460.000
残差误差4332.7770.7623   
合计53501.293     

脂肪 的方差分析

来源自由度SSMSFP
回归10266.37826.637836.890.000
残差误差4331.0500.7221   
合计53297.428     

湿度 的模型选择和验证

分量X 方差误差R-Sq
10.98497696.92880.806643
20.99640088.99000.822479
30.99775771.93040.856510
40.99942758.31740.883666
50.99972258.12610.884048
60.99985348.52360.903203
70.99996345.98240.908272
80.99997633.15450.933862
90.99998232.80740.934554
100.99998632.77730.934615

脂肪 的模型选择和验证

分量X 方差误差R-Sq
10.984976282.5190.050127
20.996400229.9640.226824
30.997757115.9510.610155
40.99942798.2850.669550
50.99972257.9940.805015
60.99985353.0970.821480
70.99996352.0100.825133
80.99997648.8420.835784
90.99998234.3440.884529
100.99998631.0500.895604

使用 湿度 模型对新观测值的预测响应

拟合值拟合值标准误95% 置信区间95% 预测区间
114.51840.388841(13.7343, 15.3026)(12.5910, 16.4459)
29.30490.372712(8.5532, 10.0565)(7.3904, 11.2193)
314.17900.504606(13.1614, 15.1966)(12.1454, 16.2127)
416.44770.559704(15.3189, 17.5764)(14.3562, 18.5391)
515.18720.358044(14.4652, 15.9093)(13.2842, 17.0903)
69.46390.485613(8.4846, 10.4433)(7.4492, 11.4787)
检验 R-sq: 0.906451

使用 脂肪 模型对新观测值的预测响应

拟合值拟合值标准误95% 置信区间95% 预测区间
118.73720.378459(17.9740, 19.5004)(16.8612, 20.6132)
215.37820.362762(14.6466, 16.1098)(13.5149, 17.2415)
320.78380.491134(19.7933, 21.7743)(18.8044, 22.7632)
414.36840.544761(13.2698, 15.4670)(12.3328, 16.4040)
516.60160.348485(15.8988, 17.3044)(14.7494, 18.4538)
620.74710.472648(19.7939, 21.7003)(18.7861, 22.7080)
检验 R-sq: 0.762701