偏最小二乘回归选择分析选项

统计 > 回归 > 偏最小二乘 > 选项
交叉验证

交叉验证计算潜在模型的预测能力,以帮助您确定要保留在模型中的相应的分量数。使用交叉验证确定数据最优的分量数。当数据包含多个响应变量时,Minitab 将同时验证所有响应变量的分量。有关更多信息,请转到PLS 回归中的交叉验证

Minitab 可以执行三种不同的交叉验证方法:
  • :不执行交叉验证。
  • 逐一剔除法:使用此选项计算潜在模型时一次剔除一个观测值。对于大型数据集,此方法可能很费时,因为重新计算模型的次数相当于观测值的数量。
  • 成组剔除个数:输入每次重新计算模型时将剔除的观测值的数量。由于此方法会减少需要重新计算模型的次数,因此它最适用于具有大型数据集时。
  • 剔除值所在的列:使用此选项计算模型的方法是同时剔除与组标识符列中的数字匹配的观测值。此方法可用于指定同时忽略哪些观测值。例如,如果组标识符列包括数字 1、2 和 3,则同时忽略所有含 1 的观测值,并重新计算模型。接下来,忽略所有含 2 的观测值,并重新计算模型,以此类推。
类别预测变量的编码类型
要执行分析,Minitab 需要使用两种方法中的一种来对类别预测变量重新编码。请根据是要将预测变量水平与总体平均值还是参考水平平均值进行比较来考虑改变方法。有关更多信息,请转到类别预测变量的编码方案
  • (1, 0):选择该项可估计每个水平平均值和参考水平平均值之间的差分。如果您选择 (1, 0) 编码架构,您可以指定参考水平。
  • (-1, 0, +1):选择该项可估计每个水平平均值和总体平均值之间的差分。
参考水平 (输入类别预测变量,然后输入水平)
输入参考水平的方法是先键入类别预测变量列,然后键入参考水平。(文本和日期/时间水平必须用引号括起。)您只有在使用 1、0 进行编码时,才能指定参考水平。默认情况下,Minitab 会根据数据类型设置以下参考水平:
  • 对于数字类别预测变量,参考水平为数值最小的水平。
  • 对于日期/时间类别预测变量,参考水平为日期/时间最早的水平。
  • 对于文本类别预测变量,参考水平为按字母顺序排列的第一个水平。