拟合二元 Logistic 模型数据注意事项

为确保结果有效,在收集数据、执行分析和解释结果时,请考虑以下准则。

预测变量可以是连续变量或类别变量

可以对连续变量进行测量和排序,而且任意两个值之间有无限个值。例如,轮胎样本的直径即为连续变量。

类别变量包含有限、可数数目的类别或可区分组。类别数据可能不是逻辑顺序。例如,类别预测变量包括性别、材料类型和付款方式。

如果您有离散变量,则可以决定是将它视为连续预测变量还是类别预测变量。可以对离散变量进行测量和排序,但是离散变量具有可计数的值。例如,家庭成员数是离散变量。可根据水平数以及分析的目的来决定将离散变量视为连续变量还是类别变量。有关详细信息,请转到什么是类别、离散和连续变量?

如果您具有嵌套或随机的类别预测变量,则在具有所有固定因子时使用拟合一般线性模型,或在具有随机因子时使用拟合混合效应模型对于拟合一般线性模型,响应变量是连续的。

响应变量应当是二元变量
二元响应具有两个结果,如通过或失败。
  • 如果您的响应变量包含三个或更多采用一定自然顺序的类别(如非常不同意、不同意、中立、同意和非常同意),请使用顺序 Logistic 回归
  • 如果您的响应变量包含三个或更多不采用自然顺序的类别(如擦痕、凹陷和撕裂),请使用名义 Logistic 回归
  • 如果您的响应变量对发生次数(如缺陷数量)进行计数,请使用拟合 Poisson 模型
考虑使用模型验证技术
Minitab 允许您选择使用检验数据集或交叉验证来验证模型。用于模型拟合过程中数据的模型汇总统计量(如偏差 R2)往往偏向乐观。使用检验数据集或交叉验证可以更准确地表示模型对新数据的执行效果。
使用最佳做法收集数据
要确保结果有效,请考虑以下准则:
  • 确保数据代表您感兴趣的总体。
  • 收集足够多的数据以提供必要的精确度。
  • 尽可能准确和精确地测量变量。
  • 以数据的收集顺序记录数据。
预测变量之间的相关性(又称为多重共线性)应当不严重

如果多重共线性严重,则可能无法确定要在模型中包括哪些预测变量。要确定多重共线性的严重性,请使用输出的“系数”表格中的方差膨胀因子 (VIF)。

模型应当提供良好的数据拟合

如果模型无法与数据拟合,则结果可能会具有误导性。在输出中,使用残差图、异常观测值的诊断统计量以及模型汇总统计量可以确定模型对数据的拟合优度。