什么是列联表?

列联表是统计多个类别变量的观测值的表格。表格的行和列对应于这些类别变量。

例如,在最近于两位候选人之间进行的选举过后,一份投票后民意调查随机记录了 100 位投票者的性别和投票,并制成以下数据列表:

候选人 A 候选人 B 全部
28 20 48
39 13 52
全部 67 33 100

此列联表按性别和选票统计了响应。第 i 行和第 j 列相交处的计数可标识为 nij,它表示具有水平组合的观测值的个数。例如,n1,2 显示为候选人 B 投票的男性投票者的数量。

该表格还包括每个变量水平的边际合计。行的边际合计显示有 52 名投票者为女性。列的边际合计显示有 67 名投票者为候选人 A 投票。此外,总的合计显示样本数量为 100。

列联表还可以揭示两个变量之间的关联。使用卡方检验或 Fisher 精确检验在无关联的原假设下确定实测计数与预期计数之间是否存在显著差异。例如,可以检验性别与投票之间是否存在关联。

最简单的列联表是根据两个变量来计数响应的双因子表。通过将变量“相交”,可以按三个或更多变量来分类观测值。在前面的投票示例中,还可以按就业状态分类响应,如下所示:

候选人 A 候选人 B 合计
男性 / 就业 18 19 37
男性 / 失业 10 1 11
女性 / 就业 33 10 43
女性 / 失业 6 3 9
合计 67 33 100

简单对应分析可以检测按两个以上变量对数据分类的列联表中的关联。要在 Minitab 中执行简单对应分析,请选择统计 > 多变量 > 简单对应分析

计算 2 X 2 列联表的优势比与置信区间

您可以使用统计 > 回归 > 二值 Logistic 回归 > 拟合二值 Logistic 模型计算优势比和置信区间。

例如,您正在研究阿司匹林使用和心脏病之间的关系,想要计算以下 2 X 2 列联表的优势比和置信区间:
心脏病 未患心脏病
安慰剂 189 10845
阿司匹林 104 10933
  1. 将下面的数据输入 Minitab:
    C1 C2 C3
    心脏病 计数
    安慰剂 189
    安慰剂 10845
    阿司匹林 104
    阿司匹林 10933
  2. 选择统计 > 回归 > 二值 Logistic 回归 > 拟合二值 Logistic 模型
  3. 响应中,输入 C2,在频数中,输入 C3
  4. 类别预测变量中,输入 C1。单击确定
类别预测变量的优势比 水平 A 水平 B 优势比 95% 置信区间 组 安慰剂 阿斯匹林 1.8321 (1.4400, 2.3308) 水平 A 相对于水平 B 的优势比

优势比为 1.8321。这表示服用安慰剂的人的优势比要比服用阿司匹林的心脏病人的优势比大 1.8321 倍。优势比的实际值介于 1.44 和 2.3308 之间的置信度为 95%。

用于此示例中的数据来源于 A. Agresti (1996) 的第 20 页。An Introduction to Categorical Data Analysis(类别数据分析简介)。John Wiley & Sons, Inc.

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策