简单对应分析的频率和卡方距离

请查找相关定义和解释指导,了解针对简单对应分析的频率和卡方距离提供的每个统计量。

列联表

列联表根据多个类别变量来计数观测值。该表中的行和列对应于这些类别变量。该表包含变量每个水平的边际合计。

简单对应分析的列联表是一种计数两个变量观测值的双因子表。您还可以通过使用合并子对话框交叉变量并创建双因子表的行和/或列,从而对三个或四个变量的观测值分类。

解释

使用列联表可查看按照行类别和列类别为每个单元格定义的观测频率。使用列合计和行合计可查看各个类别的总频率。

列联表

ABCDE合计
地质学3.00019.00039.00014.00010.00085.000
生物化学1.0002.00013.0001.00012.00029.000
化学6.00025.00049.00021.00029.000130.000
动物学3.00015.00041.00035.00026.000120.000
物理学10.00022.00047.0009.00026.000114.000
工程学3.00011.00025.00015.00034.00088.000
微生物学1.0006.00014.0005.00011.00037.000
植物学0.00012.00034.00017.00023.00086.000
统计学2.0005.00011.0004.0007.00029.000
数学2.00011.00037.0008.00020.00078.000
合计31.000128.000310.000129.000198.000796.000

以下双因子列联表显示每个学术科目和经费类别(A、B、C、D、E)的研究人员观测计数。“合计”列表明大多数研究人员来自“化学”(130)、“动物学”(120) 和“物理学”(114) 领域。“合计”行表明大多数研究人员归类在经费类别 C (310) 下。对于单元格计数,归类到经费类别 C 下的“化学”领域的研究人员具有最高的观测频率 (49)。

预期频率

预期频率是变量独立的情况下您预计单元格中观测值的平均计数。Minitab 会计算预期计数(行和列合计乘积除以观测值总数)。

期望频率

ABCDE
地质学3.31013.66833.10313.77521.143
生物化学1.1294.66311.2944.7007.214
化学5.06320.90550.62821.06832.337
动物学4.67319.29646.73419.44729.849
物理学4.44018.33244.39718.47528.357
工程学3.42714.15134.27114.26121.889
微生物学1.4415.95014.4105.9969.204
植物学3.34913.82933.49213.93721.392
统计学1.1294.66311.2944.7007.214
数学3.03812.54330.37712.64119.402

下面的预期频率表显示假定经费和学术科目独立的情况下,每个学术科目和经费类别(A、B、C、D、E)中研究人员的预期计数。由于大多数研究人员来自“化学”领域,大多数系属于经费类别 C,这些类别的组合具有最高的预期值(约为 51)。

观测 - 预期频率

观测 - 预期频率是单元格中实际观测值计数和变量独立的情况下您预期的单元格中观测值计数之间的差值。

解释

使用观测频率和预期频率可找出数据中存在可能相关性的证明。如果两个变量相关,则一个变量的观测值分布因另一变量的类别而异。因此,观测频率和预期频率之间的差值量值相对较大。如果两个变量相互独立,则一个变量的观测值分布对另一变量的所有类别而言都相似。因此,观测频率和预期频率之间的差值量值相对较小。

观测 - 期望频率

ABCDE
地质学-0.3105.3325.8970.225-11.143
生物化学-0.129-2.6631.706-3.7004.786
化学0.9374.095-1.628-0.068-3.337
动物学-1.673-4.296-5.73415.553-3.849
物理学5.5603.6682.603-9.475-2.357
工程学-0.427-3.151-9.2710.73912.111
微生物学-0.4410.050-0.410-0.9961.796
植物学-3.349-1.8290.5083.0631.608
统计学0.8710.337-0.294-0.700-0.214
数学-1.038-1.5436.623-4.6410.598

在此表中,“动物学”和经费类别 D (15.553) 以及“工程学”和经费类别 E (12.111) 的观测计数和预期计数之间的差值量值相对较大。对于这些单元格,观测计数比变量独立的情况下您预期的计数要大。对于“地质学”和经费类别 E (-11.143),差值量值也相对较大。对于此单元格,观测计数比变量独立的情况下您预期的计数要小。因此,您可以得出这样的结论:相较于预期,相当多的“工程学”系没有获得经费;相较于预期,相当少的“地质学”系没有获得经费。

卡方距离

Minitab 将每个单元格对卡方统计量的贡献显示为卡方距离。每个单元格的卡方距离量化每个单元格差异对总卡方统计量的贡献。

Minitab 通过将单元格的观测值与预期值的差值平方除以该单元格的预期值,来计算每个单元格对卡方统计量的贡献。总卡方是所有单元格的这些值之和。

解释

可以比较每个单元格的卡方距离来评估哪些单元格对总卡方贡献最大。如果观测单元格频率和预期单元格频率有很大差异,则单元格的卡方值较大。因此,如果单元格中卡方距离较大,表明行类别与列类别之间的关联性比偶然预计的更强。

卡方距离

ABCDE合计
地质学0.0292.0801.0500.0045.8739.036
生物化学0.0151.5210.2582.9133.1767.882
化学0.1730.8020.0520.0000.3441.373
动物学0.5990.9570.70312.4380.49615.194
物理学6.9640.7340.1534.8590.19612.906
工程学0.0530.7022.5080.0386.70010.001
微生物学0.1350.0000.0120.1660.3510.663
植物学3.3490.2420.0080.6730.1214.393
统计学0.6710.0240.0080.1040.0060.814
数学0.3540.1901.4441.7040.0183.710
合计12.3437.2526.19622.89917.28265.972

在此表中,“动物学”和经费类别 D 的单元格是 12.438,这对总卡方 (65.972) 贡献最大。在行类别中,“动物学”(15.194)、“物理学”(12.906) 和“工程学”(10.001) 对总卡方贡献最大。在列类别中,经费级别 D (22.899) 和 E (17.282) 对总卡方贡献最大。

相对惯量

单元格中的卡方值除以列联表的总频率即可得到单元格惯量。所有单元格惯量之和是总惯量,或者仅仅是惯量。单元格惯量除以总惯量即可得到单元格的相对惯量。行的惯量之和除以总惯量即可得到行的相对惯量。列的单元格惯量之和除以总惯量即可得到列的相对惯量。

解释

使用相对惯量可评估类别之间的相关性强度以及对数据中变异的贡献。通常,值越高,表明相关性越强,占数据中预期值的总变异比率越大。

相对惯量

ABCDE合计
地质学0.0000.0320.0160.0000.0890.137
生物化学0.0000.0230.0040.0440.0480.119
化学0.0030.0120.0010.0000.0050.021
动物学0.0090.0150.0110.1890.0080.230
物理学0.1060.0110.0020.0740.0030.196
工程学0.0010.0110.0380.0010.1020.152
微生物学0.0020.0000.0000.0030.0050.010
植物学0.0510.0040.0000.0100.0020.067
统计学0.0100.0000.0000.0020.0000.012
数学0.0050.0030.0220.0260.0000.056
合计0.1870.1100.0940.3470.2621.000

“相对惯量”表显示每个单元格对总卡方统计量的相对贡献。单元格中的相对惯量越高,行类别和列类别之间的相关性越大。在这个表格中,“动物学”和经费类别 D 的单元格相对惯量最高 (0.189),这反映了表格中的最强相关性。该表格还显示每行和每列的总相对惯量。