交叉分组表和卡方的相关性度量

请查找定义和解释指导,了解随相关性度量提供的每个统计量。

Fisher 精确检验、P 值

Fisher 精确检验可以检验独立性。当预期单元格计数较小且卡方近似不佳时,可以使用 Fisher 精确检验。

p 值是一个概率,用来度量否定原假设的证据。概率越低,否定原假设的证据越充分。

使用 p 值来确定可以否定还是无法否定原假设,以表明变量之间相互独立。

解释

要确定变量之间是否相互独立,可将 p 值与显著性水平进行比较。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 表明变量之间在实际上不存在关联时断定存在关联的风险为 5%。
P 值 ≤ α:变量之间的关联在统计上显著(否定 H0
如果 p 值小于或等于显著性水平,则可以否定原假设并断定变量之间的关联在统计上显著。
P 值 > α:无法断定变量之间存在关联(无法否定 H0
如果 p 值大于显著性水平,则无法否定原假设,因为没有足够的证据可以断定变量之间存在关联。

有关更多信息,请转到什么是 Fisher 精确检验?

McNemar 检验

McNemar 检验可用于确定配对比率是否存在差异。

解释

估计的差值
Minitab 可以计算边际比率之间的差值。
95% 置信区间
Minitab 可为边际概率之间的差值计算 95% 的置信区间。
95% 置信区间 (95% CI) 是可能包含边际概率之间的实际差值的值范围。
P
Minitab 可以计算 p 值,以检验原假设。
要确定边际概率之间是否存在显著差异,可将 p 值与显著性水平(表示为 α 或 alpha)进行比较,以评估原假设。原假设声明边际概率是相等的。通常,显著性水平为 0.05 即可。显著性水平为 0.05 时,表示实际不存在差异时断定存在差异的风险为 5%。
P 值 ≤ α:边际概率在统计上存在差异
如果 p 值小于或等于显著性水平,则可以否定原假设并断定边际概率存在显著差异。例如,之前的概率不同于之后的概率。
P 值 > α:边际概率不存在显著差异
如果 p 值大于显著性水平,则无法否定原假设,因为您没有足够的证据断定边际概率存在差异。例如,您无法断定之前的概率和之后的概率存在差异。

有关更多信息,请转到为何应使用 McNemar 检验?

Cochran-Mantel-Haenszel 检验

CMH 检验可在存在第三个类别变量时用于检验两个二元变量之间的条件关联。

Minitab 可以跨表计算公共优势比和 p 值,以评估其显著性。

解释

公共优势比
Minitab 可以计算表示关联度的公共优势比。
CMH 统计量
CMH 统计量可用于表示关联在统计上是否显著。
自由度
可以使用自由度为 1 的卡方百分位数比较 CMH 统计量。
P 值
Minitab 可以计算 p 值,以检验原假设。
p 值可用于确定是可以否定还是无法否定原假设,这表明在存在第三个变量时两个二元变量之间不相关。

有关更多信息,请转到什么是 Cochran-Mantel-Haenszel 检验?

Cramer 的 V 方

Cramer 的 V2 可以度量两个变量(行变量和列变量)之间的关联。Cramer 的 V2 值介于 0 到 1 之间。Cramer 的 V2 值较大时表示变量之间的关系较强,V2 值较小时表示变量之间的关系较弱。值 0 表示不存在关联。值 1 表示变量之间的关联非常强。

Kappa

Kappa 可在评估相同样本时度量多名检验员所做名义或顺序评估的一致程度。当进行顺序评级时(比如按 1 到 5 个等级对缺陷严重性进行评级),顺序类别的一致性度量标准考虑了排序因素,通常比单独使用 kappa 更适用于确定相关性。

解释

Kappa 值介于 -1 到 +1 之间。kappa 值越大,一致性越高。

当:
  • Kappa = 1 时,存在完全相关。
  • Kappa = 0 时,一致性与随机预计的相同。
  • Kappa < 0 时,一致性比随机预计的低;这种情况比较罕见。

Goodman-Kruskal lambda 和 Tau

Goodman-Kruskal Lambda (λ) 和 Tau (τ) 可以根据已知变量的值时正确猜测或预测另一变量值的能力来测量相关性的强度。Lambda 以模型概率为基础,而 Tau 以随机类别分配为基础。

解释

Lambda (λ)
在给定其他变量(行或列变量)值的情况下,Lambda 可测量因变量(列或行变量)概率的改善百分比。
Lambda 值介于 0 到 1 之间。值 0 表示自变量无法改善对因变量类别的预测。值 1 表示自变量可以充分预测因变量的类别。值 0.5 表示预测误差可降低 50%。
Tau (τ)
在给定其他变量(行或列变量)值的情况下,Tau 可测量因变量(列或行变量)可预测性的改善百分比。Goodman-Kruskal Tau 与 Goodman-Kruskal Lambda 相同,只是 Tau 统计量的计算基于由边际或条件比率指定的分配概率。
Tau 值介于 −1(完全负相关)到 +1(完全正相关)之间。值 0 表示不存在关联。

有关更多信息,请转到什么是 Goodman-Kruskal 统计量?

顺序类别的一致性量度

一致和不一致对的数量
一致对和不一致对用于描述观测值对之间的关系。为计算一致对和不一致对,数据将视为顺序数据处理,因此顺序数据应该适用于您的应用程序。一致和不一致对的数量用于计算 Kendall 的 tau,该系数用于度量两个顺序变量之间的关联。
有关更多信息,请转到什么是一致对和不一致对?
Goodman-Kruskal Gamma (γ)
Goodman-Kruskal Gamma (γ) 表示存在的一致对的个数减去不一致对的个数除以扣除了结个数的配对总个数。Goodman-Kruskal gamma 用于度量顺序变量之间的关联。
当 |γ| = 1 时,存在完全相关。在顺序和二元 Logistic 回归中,如果 X 和 Y 是独立的,则 γ = 0。
有关更多信息,请转到什么是 Goodman-Kruskal 统计量?
Somer 的 D
Somer 的 D 测量变量对之间关系的强度和方向。Somer 的 D 值介于 -1(所有对不一致)到 1(所有对都一致)之间。
Minitab 会显示 D 的两个值,一个值用于行变量是因变量的情况,另一个值用于列变量是因变量的情况。您必须决定哪种情况适用于您的分析。
Kendall 的 tau-b
Kendall 的 tau-b 用于交叉分组表,以度量两个顺序变量之间的关联。
Kendall 的 tau-b 值介于 -1.0 到 1.0 之间。正值表示两个变量同时增大。负值表示两个变量同时减小。

Pearson 的 r 和 Spearman 的 rho

使用 Pearson 的 r 和 Spearman 的 rho 来评估两个具有顺序类别的变量的关联。顺序类别是自然顺序,如小、中和大。

系数值介于 -1 到 +1 之间。系数的绝对值越大,变量之间的关系越强。绝对值为 1 时表示完全相关,值为 0 时则表示不存在顺序关系。将中间值解释为弱相关、中度相关还是强相关取决于您的目标和要求。

有关更多信息,请转到顺序类别的 Spearman 的 rho 和 Pearson 的 r 是什么?