什么是列联表?

列联表是根据多个类别变量来对观测值进行计数的表。该表的行和列对应于这些类别变量。

例如,在最近于两位候选人之间进行的选举过后,一份投票后民意调查随机记录了 100 位投票者的性别和投票,并制成以下数据列表:

候选人 A 候选人 B 全部
28 20 48
39 13 52
全部 67 33 100

此列联表根据性别和投票对响应进行了计数。行 i 与列 j 相交处的计数标识为 nij,它代表呈现该水平组合的观测值的个数。例如,n1,2 显示了投票给候选人 B 的男性投票者的数量。

该表还包含变量的每个水平的边际合计。行的边际合计显示有 52 位投票者为女性。列的边际合计显示有 67 个人投票给候选人 A。而且总计显示样本数量为 100。

列联表还可以揭示两个变量之间的关联。使用卡方检验或 Fisher 精确检验在无关联的原假设下确定实测计数与预期计数之间是否存在显著差异。例如,可以检验性别与投票之间是否存在关联。

最简单的列联表是根据两个变量来计数响应的双因子表。通过将变量“相交”,可以按三个或更多变量来分类观测值。在前面的投票示例中,还可以按就业状态分类响应,如下所示:

  候选人 A 候选人 B 合计
男性 / 就业 18 19 37
男性 / 失业 10 1 11
女性 / 就业 33 10 43
女性 / 失业 6 3 9
合计 67 33 100

使用简单对应分析可以检测按两个以上变量对数据分类的列联表中的关联。要在 Minitab 中执行简单对应分析,请选择统计 > 多变量 > 简单对应分析

计算 2 X 2 列联表的优势比与置信区间

您可以使用统计 > 回归 > 二元 Logistic 回归 > 拟合二元 Logistic 模型计算优势比和置信区间。

例如,您正在研究阿司匹林使用和心脏病之间的关系,想要计算以下 2 X 2 列联表的优势比和置信区间:
  心脏病 未患心脏病
安慰剂 189 10845
阿司匹林 104 10933
  1. 将下面的数据输入 Minitab:
    C1 C2 C3
    心脏病 计数
    安慰剂 189
    安慰剂 10845
    阿司匹林 104
    阿司匹林 10933
  2. 选择统计 > 回归 > 二元 Logistic 回归 > 拟合二元 Logistic 模型
  3. 响应中,输入 C2,在频数中,输入 C3
  4. 类别预测变量中,输入 C1。单击确定

二值 Logistic 回归: 心脏病 与 组

类别预测变量的优势比 水平 A 水平 B 优势比 95% 置信区间 组 安慰剂 阿斯匹林 1.8321 (1.4400, 2.3308) 水平 A 相对于水平 B 的优势比

优势比为 1.8321。这表示服用安慰剂的人比服用阿司匹林的人患心脏病的可能大 1.8321 倍。您可以 95% 确信优势比的实际值介于 1.44 至 2.3308 之间。

此示例中所使用的数据来自于下书的第 20 页:A. Agresti (1996) 著作的 An Introduction to Categorical Data Analysis(分类数据分析简介),John Wiley & Sons, Inc.。