使用检验数据集的偏最小二乘回归的示例

食品化学实验室的科学家分析 60 个豆粉样本。科学家确定每个样本的含水量和脂肪含量,并记录 88 个波长处的近红外 (NIR) 光谱数据。科学家从这 60 个样本中随机选择 54 个样本,并使用 PLS 回归来估计响应(含水量和脂肪)和预测变量(88 个 NIR 波长)之间的关系。科学家使用其余的 6 个样本作为检验数据集来评估模型的预测能力。

  1. 打开样本数据 大豆粉.MWX
  2. 选择统计 > 回归 > 偏最小二乘
  3. 响应中,输入湿度脂肪
  4. 模型中,输入1'-'88
  5. 单击预测
  6. 连续预测变量的新观测值中,输入测试1-测试88
  7. 响应的新观测值 (可选)中,输入湿度2脂肪2
  8. 单击每个对话框中的确定

解释结果

两个响应变量的 P 值约为 0.000,该值小于显著性水平 0.05。这些结果指示模型中至少有一个系数不等于零。湿度的检验 R2 值约为 0.9。脂肪的检验 R2 值约为 0.8。检验 R2 统计量指示模型的预测效果良好。每个响应的分析分别提供不同的结果。

Syntax Error
Syntax Error

脂肪 的方差分析

来源自由度SSMSFP
回归10266.37826.637836.890.000
残差误差4331.0500.7221   
合计53297.428     

湿度 的模型选择和验证

分量X 方差误差R-Sq
10.98497696.92880.806643
20.99640088.99000.822479
30.99775771.93040.856510
40.99942758.31740.883666
50.99972258.12610.884048
60.99985348.52360.903203
70.99996345.98240.908272
80.99997633.15450.933862
90.99998232.80740.934554
100.99998632.77730.934615

脂肪 的模型选择和验证

分量X 方差误差R-Sq
10.984976282.5190.050127
20.996400229.9640.226824
30.997757115.9510.610155
40.99942798.2850.669550
50.99972257.9940.805015
60.99985353.0970.821480
70.99996352.0100.825133
80.99997648.8420.835784
90.99998234.3440.884529
100.99998631.0500.895604

使用 湿度 模型对新观测值的预测响应

拟合值拟合值标准误95% 置信区间95% 预测区间
114.51840.388841(13.7343, 15.3026)(12.5910, 16.4459)
29.30490.372712(8.5532, 10.0565)(7.3904, 11.2193)
314.17900.504606(13.1614, 15.1966)(12.1454, 16.2127)
416.44770.559704(15.3189, 17.5764)(14.3562, 18.5391)
515.18720.358044(14.4652, 15.9093)(13.2842, 17.0903)
69.46390.485613(8.4846, 10.4433)(7.4492, 11.4787)
检验 R-sq: 0.906451

使用 脂肪 模型对新观测值的预测响应

拟合值拟合值标准误95% 置信区间95% 预测区间
118.73720.378459(17.9740, 19.5004)(16.8612, 20.6132)
215.37820.362762(14.6466, 16.1098)(13.5149, 17.2415)
320.78380.491134(19.7933, 21.7743)(18.8044, 22.7632)
414.36840.544761(13.2698, 15.4670)(12.3328, 16.4040)
516.60160.348485(15.8988, 17.3044)(14.7494, 18.4538)
620.74710.472648(19.7939, 21.7003)(18.7861, 22.7080)
检验 R-sq: 0.762701