拟合二元 Logistic 模型示例

一家谷类食品公司的市场营销顾问调查了电视广告对新的谷类产品的影响。这位顾问将广告在特定的社区播放了一周。然后这位顾问在成人顾客离开当地超市时随机抽取了一些成人顾客作为样本,询问他们是否看到了广告,是否购买了新的谷类食品。这位顾问还询问他们是否有小孩以及他们的家庭年收入。

由于响应变量是二元变量,因此顾问使用二元 Logistic 回归来确定广告、有无小孩及家庭年收入与抽取作为样本的成人是否购买谷类食品的关系。

  1. 打开样本数据谷类食品购买.MTW
  2. 选择统计 > 回归 > 二值 Logistic 回归 > 拟合二值 Logistic 模型
  3. 从下拉列表中,选择二值响应/频率格式的响应
  4. 响应中,输入购买
  5. 连续预测变量中,输入收入
  6. 类别预测变量中,输入孩子收看广告
  7. 单击选项。在所有区间的置信水平下,输入 90
  8. 在每个对话框中单击确定

解释结果

偏差表显示哪些预测变量与响应变量在统计上存在显著关系。顾问使用的显著性水平为 0.10,结果表明预测变量“孩子”和“看过广告”与响应变量在统计上存在显著关系。收入与响应变量在统计上不存在显著关系,因为 P 值大于 0.10。这位顾问可能希望重新拟合不含收入变量的模型。

优势比表明有孩子的成人购买谷类食品的可能性比没有孩子的成人大 4.2 倍。看过广告的成人的优势比表明他们购买谷类食品的可能性比没看过广告的成人大 2.8 倍。

拟合优度检验都大于显著性水平 0.05,这表示没有足够的证据可以断定模型无法与数据拟合。R2 值表明模型解释了响应变量中约 12.7% 的偏差。

二值 Logistic 回归: 购买 与 收入, 孩子, 收看广告

方法 链接函数 Logit 类别预测变量编码 (1, 0) 已使用的行数 71
响应信息 变量 值 计数 购买 1 22 (事件) 0 49 合计 71
偏差表 来源 自由度 调整后偏差 调整后均值 卡方 P 值 回归 3 11.1298 3.7099 11.13 0.011 收入 1 0.4985 0.4985 0.50 0.480 孩子 1 3.3886 3.3886 3.39 0.066 收看广告 1 3.3764 3.3764 3.38 0.066 误差 67 76.7665 1.1458 合计 70 87.8963
模型汇总 偏差 R-Sq 偏差 R-Sq (调整) AIC 12.66% 9.25% 84.77
系数 方差膨 项 系数 系数标准误 胀因子 常量 -3.016 0.939 收入 0.0137 0.0195 1.15 孩子 是 1.433 0.856 1.12 收看广告 是 1.034 0.572 1.03
连续预测变量的优势比 优势比 90% 置信区间 收入 1.0138 (0.9818, 1.0469)
类别预测变量的优势比 水平 A 水平 B 优势比 90% 置信区间 孩子 是 否 4.1902 (1.0242, 17.1425) 收看广告 是 否 2.8128 (1.0982, 7.2046) 水平 A 相对于水平 B 的优势比
回归方程 P(1) = exp(Y')/(1 + exp(Y'))
收看 孩子 广告 否 否 Y' = -3.016 + 0.01374 收入 否 是 Y' = -1.982 + 0.01374 收入 是 否 Y' = -1.583 + 0.01374 收入 是 是 Y' = -0.5490 + 0.01374 收入
拟合优度检验 检验 自由度 卡方 P 值 偏差 67 76.77 0.194 Pearson 67 76.11 0.209 Hosmer-Lemeshow 8 5.58 0.694
异常观测值的拟合和诊断 观测到 标准化 观测值 的概率 拟合值 残差 残差 50 1.000 0.062 2.357 2.40 R 68 1.000 0.091 2.189 2.28 R R 残差大
使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策