拟合二元 Logistic 模型的优势比

请查找定义和解释指导,了解优势比表中的每个统计量。

优势比

优势比可比较两个事件的几率。事件的优势为事件发生的概率除以事件不发生的概率。当模型使用 Logit 链接函数时,Minitab 会计算优势比。

解释

使用优势比可以了解预测变量的效应。对优势比的解释取决于预测变量是类别变量还是连续变量。

连续预测变量的优势比

优势比大于 1 表示在预测变量越大,事件发生的几率越大。优势比小于 1 表示预测变量越大,事件发生的几率越小。

在这些结果中,该模型使用药物的剂量水平来预测成人体内是否存在细菌。在此示例中,不存在细菌为“事件”。每颗药的剂量为 0.5 毫克,因此研究人员使用 0.5 毫克作为一个单位变化。优势比约为 6。成人多服用一颗药,体内没有细菌的患者的优势就增加约 6 倍。

二值 Logistic 回归: 无细菌 与 剂量(毫克)

连续预测变量的优势比 变更 单位 优势比 95% 置信区间 剂量(毫克) 0.5 6.1279 (1.7218, 21.8095)
类别预测变量的优势比

对于类别预测变量,优势比可以比较事件在两个不同的预测变量水平发生的几率。Minitab 通过在水平 A 和水平 B 这两列中列出水平来设置比较。水平 B 是因子的参考水平。优势比大于 1 表示事件在水平 A 下发生的几率大。优势比小于 1 表示事件在水平 A 下发生的几率小。有关类别预测变量编码的更多信息,请转到类别预测变量的编码方案

在这些结果中,类别预测变量是距离酒店旺季开始时间的月份。响应是客户是否取消预定房间。 在此示例中,取消预定房间为“事件”。当水平 A 为第 4 个月,水平 B 为第 1 个月时,最大的优势比大约为 7.71。这表示客户在第 4 个月取消预定房间的优势约为客户在第 1 个月取消预定房间的优势的 8 倍。

二值 Logistic 回归: Cancellation 与 月份

类别预测变量的优势比 水平 A 水平 B 优势比 95% 置信区间 月份 2 1 1.1250 (0.0600, 21.0867) 3 1 3.3750 (0.2897, 39.3222) 4 1 7.7143 (0.7460, 79.7712) 5 1 2.2500 (0.1107, 45.7226) 6 1 6.0000 (0.5322, 67.6495) 3 2 3.0000 (0.2547, 35.3340) 4 2 6.8571 (0.6556, 71.7201) 5 2 2.0000 (0.0976, 41.0034) 6 2 5.3333 (0.4679, 60.7972) 4 3 2.2857 (0.4103, 12.7323) 5 3 0.6667 (0.0514, 8.6389) 6 3 1.7778 (0.2842, 11.1200) 5 4 0.2917 (0.0252, 3.3719) 6 4 0.7778 (0.1464, 4.1326) 6 5 2.6667 (0.2124, 33.4861) 水平 A 相对于水平 B 的优势比

优势比的置信区间(95% 置信区间)

这些置信区间 (CI) 是可能包含优势比的实际值的值范围。置信区间的计算采用正态分布。如果样本数量足够多(即样本优势比的分布遵循正态分布),置信区间将非常精确。

由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果随机取样多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。

置信区间由以下两部分组成:
点估计值
点估计是从样本数据计算得到的参数的估计值。
边际误差
边际误差定义了置信区间的宽度,它受到事件概率范围、样本数量和置信水平的影响。

解释

使用此置信区间评估优势比的估计值。

例如,对于 95% 置信区间,置信区间包含总体优势比的值的可信度为 95%。置信区间有助于评估结果的实际意义。使用您的专业知识可以确定置信区间是否包括对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策