列联表是根据多个类别变量来对观测值进行计数的表。该表的行和列对应于这些类别变量。
例如,在最近于两位候选人之间进行的选举过后,一份投票后民意调查随机记录了 100 位投票者的性别和投票,并制成以下数据列表:
候选人 A | 候选人 B | 全部 | |
---|---|---|---|
男 | 28 | 20 | 48 |
女 | 39 | 13 | 52 |
全部 | 67 | 33 | 100 |
此列联表根据性别和投票对响应进行了计数。行 i 与列 j 相交处的计数标识为 nij,它代表呈现该水平组合的观测值的个数。例如,n1,2 显示了投票给候选人 B 的男性投票者的数量。
该表还包含变量的每个水平的边际合计。行的边际合计显示有 52 位投票者为女性。列的边际合计显示有 67 个人投票给候选人 A。而且总计显示样本数量为 100。
列联表还可以揭示两个变量之间的关联。使用卡方检验或 Fisher 精确检验在无关联的原假设下确定实测计数与预期计数之间是否存在显著差异。例如,可以检验性别与投票之间是否存在关联。
最简单的列联表是根据两个变量来计数响应的双因子表。通过将变量“相交”,可以按三个或更多变量来分类观测值。在前面的投票示例中,还可以按就业状态分类响应,如下所示:
候选人 A | 候选人 B | 合计 | |
---|---|---|---|
男性 / 就业 | 18 | 19 | 37 |
男性 / 失业 | 10 | 1 | 11 |
女性 / 就业 | 33 | 10 | 43 |
女性 / 失业 | 6 | 3 | 9 |
合计 | 67 | 33 | 100 |
使用简单对应分析可以检测按两个以上变量对数据分类的列联表中的关联。要在 Minitab 中执行简单对应分析,请选择
。您可以使用计算优势比和置信区间。
心脏病 | 未患心脏病 | |
---|---|---|
安慰剂 | 189 | 10845 |
阿司匹林 | 104 | 10933 |
C1 | C2 | C3 |
---|---|---|
组 | 心脏病 | 计数 |
安慰剂 | 是 | 189 |
安慰剂 | 否 | 10845 |
阿司匹林 | 是 | 104 |
阿司匹林 | 否 | 10933 |
优势比为 1.8321。这表示服用安慰剂的人比服用阿司匹林的人患心脏病的可能大 1.8321 倍。您可以 95% 确信优势比的实际值介于 1.44 至 2.3308 之间。
此示例中所使用的数据来自于下书的第 20 页:A. Agresti (1996) 著作的 An Introduction to Categorical Data Analysis(分类数据分析简介),John Wiley & Sons, Inc.。