偏最小二乘回归的数据注意事项

为了确保结果有效,请在收集数据、执行分析和解释结果时考虑以下准则。

预测变量无需固定
PLS 无法假设预测变量是固定的,这意味着可以使用误差度量预测变量。如果预测变量是固定变量而且没有可考虑的测量误差,请使用 拟合回归模型
数据的项数可能大于观测值个数,或者预测变量可能高度共线
如果预测变量不是高度共线而且数据中的观测值个数大于预测变量个数,请使用 拟合回归模型
预测变量可以是连续变量或类别变量

连续变量可以测量和排序,它可以拥有介于两个值之间的无限数量的值。例如,轮胎样本的直径是连续变量。

类别变量包含有限、可计数的类别数或可区分组数。类别数据可能不是逻辑顺序。例如,类别变量包括性别、材料类型和付款方式。

如果您有离散变量,则可以决定是将它视为连续预测变量还是类别预测变量。离散变量可以进行测量和排序,但是它具有可计数的值。例如,家庭成员数是离散变量。可根据水平数以及分析的目的来决定将离散变量视为连续变量还是类别变量。有关更多信息,请转到什么是类别、离散和连续变量?

响应变量应当是连续变量

如果您对相关的响应变量执行分析,则 PLS 可以检测到多变量响应模式,并且通过对每个响应执行独立分析还可能检测到更弱的关系。

如果响应变量是类别变量,则您的模型不太可能满足分析假定、准确描述数据或者进行有用的预测。

如果预测变量不高度相关,且预测变量数少于观测值数,则您可以考虑使用以下备择分析。

  • 如果您的响应变量有两个类别(如通过和失败),请使用拟合二元 Logistic 模型
  • 如果您的响应变量包含三个或更多采用一定自然顺序的类别(如非常不同意、不同意、中立、同意和非常同意),请使用顺序 Logistic 回归
  • 如果您的响应变量包含三个或更多不采用自然顺序的类别(如擦痕、凹陷和撕裂),请使用名义 Logistic 回归
  • 如果您的响应变量对发生次数(如缺陷数量)进行计数,请使用拟合 Poisson 模型
使用最佳做法收集数据
要确保结果有效,请考虑以下准则:
  • 确保数据代表您感兴趣的总体。
  • 收集足够多的数据以提供必要的精确度。
  • 尽可能准确和精确地测量变量。
  • 以数据的收集顺序记录数据。
模型应当提供良好的数据拟合

如果模型无法与数据拟合,则结果可能会具有误导性。在输出中,使用残差图、模型选择和验证统计量以及响应图可以确定模型对数据的拟合优度。