相关性的卡方检验的数据注意事项

为了确保结果有效,请在收集数据、执行分析和解释结果时考虑以下准则。

收集原始数据或汇总数据
您可以使用两列列联表形式的原始数据或汇总数据。如果数据是频率形式,请使用交叉分组表和卡方
注意

缺失值无法用于列联表。

该样本应随机选择

对于 X 的每个水平,收集的是代表过程的项目的随机样本。X 变量的水平可表示不同的过程或位置。例如,如果有多个处理发票的分支机构,则应从每个分支机构收集一个发票样本。

随机样本可用于概括总体,即推断。如果数据不是随机收集的,则结果可能无效。

每个观测值都应当独立于所有其他观测值

观测值的独立性是相关性卡方检验的关键假设。

数据必须是类别数据
类别变量包含有限、可计数的类别数或可区分组数。类别数据可能不是逻辑顺序。例如,类别变量包括性别、材料类型和付款方式。
必须将所有数据都分为互斥类别,且没有重叠。

当变量类别重叠时,无法执行相关性卡方检验。因此,必须将每个观测值都分为一个且只能是一个类别。

预期计数不得太小。
每个样本应足够大,以便每个类别都有合理的几率观测到结果。如果预期计数过小,检验的 P 值可能不准确。Minitab 会指明预期计数是否过小,以及每个样本应为多大才能确保检验的有效性。
如果某个类别的预期计数太小,您可以将该类别与相邻类别合并以获得最小预期计数。 只有在必要时,才可以合并类别,因为合并类别会丢失信息。