解释拟合二元 Logistic 模型的主要结果

请完成以下用于解释二元 Logistic 模型的步骤。主要输出包含 p 值、系数、R2 和拟合优度检验。

步骤 1:确定响应变量和项之间的关联在统计上是否显著

要确定响应与模型中每个项之间的关联在统计意义上是否显著,请将该项的 P 值与显著性水平进行比较以评估原假设。原假设声明该项与响应之间没有关联。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 P 值小于或等于显著性水平,则可以得出响应变量与项之间的关联在统计意义上显著的结论。
P 值 > α:关联在统计意义上不显著
如果 p 值大于显著性水平,则无法得出响应变量与该项之间的关联在统计意义上显著的结论。您可能希望重新拟合没有该项的模型。
如果多个预测变量与响应在统计意义上没有显著的关联,则可以通过删除项(一次删除一个)来简化模型。有关从模型中删除项的更多信息,请转到模型简化
如果一个模型项在统计意义上显著,则解释取决于该项的类型。解释如下所示:
  • 如果一个连续预测变量显著,则可以得出该预测变量的系数不是零的结论。
  • 如果一个类别预测变量显著,则可以得出并非所有因子水平都具有相同概率的结论。
  • 如果一个交互作用项显著,则可以得出预测变量与事件概率之间的关系取决于该项中其他预测变量的结论。
  • 如果一个多项式项显著,则可以得出预测变量与事件概率之间的关系取决于预测变量的量级的结论。
偏差表 来源 自由度 调整后偏差 调整后均值 卡方 P 值 回归 1 22.7052 22.7052 22.71 0.000 剂量(毫克) 1 22.7052 22.7052 22.71 0.000 误差 4 0.9373 0.2343 合计 5 23.6425
系数 系数标 方差膨 项 系数 准误 胀因子 常量 -5.25 1.99 剂量(毫克) 3.63 1.30 1.00
连续预测变量的优势比 优势比 95% 置信区间 剂量(毫克) 37.5511 (2.9645, 475.6528)
主要结果:P 值、系数

在这些结果中,剂量在显著性水平为 0.05 时具有统计显著性。您可以断定剂量的变化与事件发生的概率的变化相关。

评估系数以确定预测变量的变化会让事件发生的可能性变大还是变小。。系数和概率之间的关系取决于分析的多个方面,包括链接函数。一般情况下,当预测变量增大时,正系数表示事件发生的可能性变大。当预测变量增大时,负系数表示事件发生的可能性变小。有关更多信息,请转到拟合二元 Logistic 模型的系数和回归方程

剂量的系数为 3.63,这表示剂量越高,事件发生的概率越高。

如果一个交互作用项具有统计显著性,则预测变量与响应变量之间的关系将因其他预测变量的水平而异。在这种情况下,您不应该在不考虑交互作用效应时解释主效应。要更好地了解模型中的主效应、交互作用效应和弯曲,请转到因子图响应优化器

步骤 2:了解预测变量的效应

使用优势比可以了解预测变量的效应。对优势比的解释取决于预测变量是类别变量还是连续变量。 当模型使用 Logit 链接函数时,Minitab 会计算优势比。
连续预测变量的优势比

优势比大于 1 表示在预测变量越大,事件发生的几率越大。优势比小于 1 表示预测变量越大,事件发生的几率越小。

二值 Logistic 回归: 无细菌 与 剂量(毫克)

连续预测变量的优势比 变更 单位 优势比 95% 置信区间 剂量(毫克) 0.5 6.1279 (1.7218, 21.8095)
主要结果:优势比

在这些结果中,该模型使用药物的剂量水平来预测成人体内是否存在细菌。每颗药的剂量为 0.5 毫克,因此研究人员使用 0.5 毫克作为一个单位变化。优势比约为 6。成人每额外服用一颗药,患者不感染细菌的几率大约会增加 6 倍。

类别预测变量的优势比

对于类别预测变量,优势比可以比较事件在两个不同的预测变量水平发生的几率。Minitab 通过在水平 A 和水平 B 这两列中列出水平来设置比较。水平 B 是因子的参考水平。优势比大于 1 表示事件在水平 B 下发生的几率低。优势比小于 1 表示事件在水平 B 下发生的几率大。有关如何选择参考水平以进行分析的信息,请转到为拟合二元 Logistic 模型指定编码架构

二值 Logistic 回归: Cancellation 与 月份

类别预测变量的优势比 水平 A 水平 B 优势比 95% 置信区间 月份 2 1 1.1250 (0.0600, 21.0867) 3 1 3.3750 (0.2897, 39.3222) 4 1 7.7143 (0.7460, 79.7712) 5 1 2.2500 (0.1107, 45.7226) 6 1 6.0000 (0.5322, 67.6495) 3 2 3.0000 (0.2547, 35.3340) 4 2 6.8571 (0.6556, 71.7201) 5 2 2.0000 (0.0976, 41.0034) 6 2 5.3333 (0.4679, 60.7972) 4 3 2.2857 (0.4103, 12.7323) 5 3 0.6667 (0.0514, 8.6389) 6 3 1.7778 (0.2842, 11.1200) 5 4 0.2917 (0.0252, 3.3719) 6 4 0.7778 (0.1464, 4.1326) 6 5 2.6667 (0.2124, 33.4861) 水平 A 相对于水平 B 的优势比
主要结果:优势比

在这些结果中,类别预测变量是距离酒店旺季开始时间的月数。响应是客户是否取消房间预订。当水平 A 为第 4 个月,水平 B 为第 1 个月时,最大的优势比大约为 8。这表示客户在第 4 个月取消房间预订的几率约为客户在第 1 个月取消房间预订的几率的 8 倍。

有关更多信息,请转到 拟合二元 Logistic 模型的优势比

步骤 3:确定模型对数据的拟合优度

要确定模型对数据的拟合优度,请检查模型汇总表格中的统计量。

对于二元 Logistic 回归,数据格式会影响大多数模型汇总和拟合优度统计量。AIC 和 Hosmer-Lemeshow 检验不会受数据格式影响,因此格式之间可比较。有关更多信息,请转到数据格式对二元 Logistic 回归中拟合优度的影响

偏差 R-Sq

偏差 R2 越高,模型拟合数据的优度越高。偏差 R2 始终在 0% 和 100%之间。

如果向模型添加其他预测变量,则偏差 R2 会始终增加。例如,最佳的 5 预测变量模型的 R2 始终比最佳的 4 预测变量模型的高(至少一样高)。因此,比较相同大小的模型时,偏差 R2 最有效。

对于二元 Logistic 回归,数据格式会影响偏差 R2 值。偏差 R2 通常要高于事件/试验格式的数据。偏差 R2 值仅在使用相同数据格式的两个模型之间可比较。

偏差 R2 只是一个预测模型对数据拟合优度的度量标准。即使模型具有高 R2,您也应当检查残差图和拟合优度检验,以评估模型拟合数据的优度。

偏差 R-sq (adj)

使用调整的偏差 R2 来比较具有不同预测变量数量的模型。如果向模型添加预测变量,偏差 R2 也会始终增加。调整的偏差 R2 值在模型中包含了预测变量数,以帮助您选择正确的模型。

AIC

使用 AIC 比较不同的模型。AIC 越小,模型拟合数据的优度越高。但是,对于预测变量集具有最小 AIC 的模型,不一定需要很准确地拟合数据。而且,还可使用拟合优度检验和残差图评估模型与数据的拟合优度。

模型汇总 偏差 R-Sq 偏差 R-Sq (调整) AIC 96.04% 91.81% 21.68
主要结果:偏差 R-Sq、偏差 R-Sq (adj)、AIC

在这些结果中,模型可以解释响应变量中 96.04% 的偏差。对于这些数据,偏差 R2 值表示模型与数据充分拟合。如果要拟合具有不同预测变量的其他模型,请使用调整的 R2 值和 AIC 值比较模型对数据的拟合优度。

步骤 4:确定模型是否无法与数据拟合

使用拟合优度检验确定预测概率是否以二项分布无法预测的方式偏离观测概率。如果拟合优度检验的 P 值低于您所选的显著性水平,则预测概率以二项分布无法预测的方式偏离观测概率。此列表提供偏离的常见原因:
  • 不正确的链接函数
  • 忽略了模型中变量的高阶项
  • 忽略了模型中不存在的预测变量
  • 过度离散

如果偏离在统计上显著,则您可以尝试另一种链接函数或更改模型中的项。

对于二元 Logistic 回归,数据格式会影响 p 值,因为它会改变每行的试验数。

  • 偏差:与事件/试验格式中的数据相比,偏差检验的 p 值可能会低于二元响应/频率格式的数据。对于二元响应/频率格式的数据,Hosmer-Lemeshow 结果更为可靠。
  • Pearson:如果数据中每行事件的预计数量较小, 则 Pearson 检验使用的卡方分布近似不准确。因此,如果数据为二元响应/频率格式,则 Pearson 拟合优度检验也不准确。
  • Hosmer-Lemeshow:与其他拟合优度检验一样,Hosmer-Lemeshow 检验与数据中每行的试验数无关。 如果数据每行的试验数较少,则在检验模型与数据的拟合优度方面,Hosmer-Lemeshow 检验更为可靠。
响应信息 变量 值 计数 事件名称 事件 事件 160 事件 非事件 340 试验 合计 500
拟合优度检验 检验 自由度 卡方 P 值 偏差 2 3.78 0.151 Pearson 2 3.76 0.152 Hosmer-Lemeshow 3 3.76 0.288
事件/试验格式的主要结果:响应信息、偏差检验、Pearson 检验、Hosmer-Lemeshow 检验

在这些结果中,响应信息表的变量列显示事件和试验。这些标签表示数据采用事件/试验格式。所有拟合优度检验的 P 值都大于常见显著水平 0.05。这些检验无法提供预测概率以二项分布无法预测的方式偏离观测概率的证据。

响应信息 变量 值 计数 Y 事件 160 (事件) 非事件 340 合计 500
拟合优度检验 检验 自由度 卡方 P 值 偏差 497 552.03 0.044 Pearson 497 504.42 0.399 Hosmer-Lemeshow 3 3.76 0.288
二元响应/频率格式的主要结果:响应信息、偏差检验、Pearson 检验、Hosmer-Lemeshow 检验

在使用相同数据的这些结果中,响应信息表的变量列显示 Y。此标签表示这些数据采用二元响应/频率格式。偏差检验的 P 值小于常见显著性水平 0.05,但 Hosmer-Lemeshow 检验是最可靠的检验。Hosmer-Lemeshow 检验无法提供预测概率以二项分布无法预测的方式偏离观测概率的证据。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策