拟合二元 Logistic 模型示例

一家谷类食品公司的营销人员想要调查新谷类食品的电视广告效应。顾问在某一社区播出一周广告。然后顾问在一家当地超市的出口处随机访问了成年人(作为样本),并询问他们是否看过该广告以及他们是否买过这款谷类食品。顾问还询问这些成年人是否有孩子以及他们的家庭年收入。

由于响应变量是二元变量,因此顾问使用二值 Logistic 回归来确定广告、有无小孩及家庭年收入与抽取作为样本的成人是否购买谷类食品的关系。

  1. 打开样本数据 谷类食品购买.MTW
  2. 选择统计 > 回归 > 二元 Logistic 回归 > 拟合二元 Logistic 模型
  3. 从下拉列表中,选择二值响应/频率格式的响应
  4. 响应中,输入购买
  5. 连续预测变量中,输入收入
  6. 类别预测变量中,输入孩子收看广告
  7. 单击选项。在所有区间的置信水平下,输入 90
  8. 单击每个对话框中的确定

解释结果

方差分析表显示哪些预测变量与响应变量在统计上存在显著关系。顾问使用的显著性水平为 0.10,结果表明预测变量“孩子”和“看过广告”与响应变量在统计上存在显著关系。收入与响应变量在统计上不存在显著关系,因为 P 值大于 0.10。这位顾问可能希望重新拟合不含收入变量的模型。

优势比指示有孩子的成年人购买该谷类食品的概率大约是没有孩子的成年人的 4.2 倍。看过广告的成年人的优势比指示看过广告的成年人购买该谷类食品的概率大约是没有看过广告的成年人的 2.8 倍。

拟合优度检验都大于显著性水平 0.05,这表示没有足够的证据可以断定模型无法与数据拟合。R2 值指示模型可以解释响应中大约 12.7% 的偏差。

方法

链接函数Logit
类别预测变量编码(1, 0)
已使用的行数71

响应信息

变量计数
购买122(事件)
  049 
  合计71 

回归方程

P(1)=exp(Y')/(1 + exp(Y'))
孩子收看广告
Y'=-3.016 + 0.01374 收入
         
Y'=-1.982 + 0.01374 收入
         
Y'=-1.583 + 0.01374 收入
         
Y'=-0.5490 + 0.01374 收入

系数

系数系数标准误Z 值P 值方差膨胀因子
常量-3.0160.939-3.210.001 
收入0.01370.01950.710.4811.15
孩子         
  是1.4330.8561.670.0941.12
收看广告         
  是1.0340.5721.810.0701.03

连续预测变量的优势比

优势比90% 置信区间
收入1.0138(0.9819, 1.0469)

类别预测变量的优势比

水平 A水平 B优势比90% 置信区间
孩子     
  是4.1902(1.0245, 17.1386)
收看广告     
  是2.8128(1.0982, 7.2044)
水平 A 相对于水平 B 的优势比

模型汇总

偏差 R-Sq偏差 R-Sq (调整)AICAICcBICROC 曲线下面积
12.66%9.25%84.7785.3793.820.7333

拟合优度检验

检验自由度卡方P 值
偏差6776.770.194
Pearson6776.110.209
Hosmer-Lemeshow85.580.694

方差分析



Wald 检验
来源自由度卡方P 值
回归38.790.032
  收入10.500.481
  孩子12.800.094
  收看广告13.270.070

异常观测值的拟合和诊断

观测值观测到的概率拟合值残差标准化残差
501.0000.0622.3572.40R
681.0000.0912.1892.28R
R  残差大