一家谷类食品公司的营销人员想要调查新谷类食品的电视广告效应。顾问在某一社区播出一周广告。然后顾问在一家当地超市的出口处随机访问了成年人(作为样本),并询问他们是否看过该广告以及他们是否买过这款谷类食品。顾问还询问这些成年人是否有孩子以及他们的家庭年收入。

由于响应变量是二元变量,因此顾问使用二值 Logistic 回归来确定广告、有无小孩及家庭年收入与抽取作为样本的成人是否购买谷类食品的关系。

  1. 打开样本数据 谷类食品购买.MTW
  2. 选择统计 > 回归 > 二元 Logistic 回归 > 拟合二元 Logistic 模型
  3. 从下拉列表中,选择二值响应/频率格式的响应
  4. 响应中,输入购买
  5. 连续预测变量中,输入收入
  6. 类别预测变量中,输入孩子收看广告
  7. 单击选项。在所有区间的置信水平下,输入 90
  8. 单击每个对话框中的确定

解释结果

方差分析表显示哪些预测变量与响应变量在统计上存在显著关系。顾问使用的显著性水平为 0.10,结果表明预测变量“孩子”和“看过广告”与响应变量在统计上存在显著关系。收入与响应变量在统计上不存在显著关系,因为 P 值大于 0.10。这位顾问可能希望重新拟合不含收入变量的模型。

优势比指示有孩子的成年人购买该谷类食品的概率大约是没有孩子的成年人的 4.2 倍。看过广告的成年人的优势比指示看过广告的成年人购买该谷类食品的概率大约是没有看过广告的成年人的 2.8 倍。

拟合优度检验都大于显著性水平 0.05,这表示没有足够的证据可以断定模型无法与数据拟合。R2 值指示模型可以解释响应中大约 12.7% 的偏差。

二值 Logistic 回归: 购买 与 收入, 孩子, 收看广告

方法 链接函数 Logit 类别预测变量编码 (1, 0) 已使用的行数 71
响应信息 变量 值 计数 购买 1 22 (事件) 0 49 合计 71
回归方程 P(1) = exp(Y')/(1 + exp(Y')) 孩子 收看广告 否 否 Y' = -3.016 + 0.01374 收入 否 是 Y' = -1.982 + 0.01374 收入 是 否 Y' = -1.583 + 0.01374 收入 是 是 Y' = -0.5490 + 0.01374 收入
系数 项 系数 系数标准误 Z 值 P 值 方差膨胀因子 常量 -3.016 0.939 -3.21 0.001 收入 0.0137 0.0195 0.71 0.481 1.15 孩子 是 1.433 0.856 1.67 0.094 1.12 收看广告 是 1.034 0.572 1.81 0.070 1.03
连续预测变量的优势比 优势比 90% 置信区间 收入 1.0138 (0.9819, 1.0469)
类别预测变量的优势比 水平 A 水平 B 优势比 90% 置信区间 孩子 是 否 4.1902 (1.0245, 17.1386) 收看广告 是 否 2.8128 (1.0982, 7.2044) 水平 A 相对于水平 B 的优势比
模型汇总 偏差 R-Sq 偏差 R-Sq (调整) AIC AICc BIC ROC 曲线下面积 12.66% 9.25% 84.77 85.37 93.82 0.7333
拟合优度检验 检验 自由度 卡方 P 值 偏差 67 76.77 0.194 Pearson 67 76.11 0.209 Hosmer-Lemeshow 8 5.58 0.694
方差分析 Wald 检验 来源 自由度 卡方 P 值 回归 3 8.79 0.032 收入 1 0.50 0.481 孩子 1 2.80 0.094 收看广告 1 3.27 0.070
异常观测值的拟合和诊断 观测值 观测到的概率 拟合值 残差 标准化残差 50 1.000 0.062 2.357 2.40 R 68 1.000 0.091 2.189 2.28 R R 残差大
使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策