Kappa 统计量和 Kendall 系数

关于本主题

什么是 kappa？
Fleiss kappa 和 Cohen kappa 的比较
什么是 Kendall 的一致性系数 (KCC)？
什么是 Kendall 的相关系数？
我是否应使用 kappa 统计量或其中一个 Kendall 系数？

什么是 kappa？

kappa 衡量在评估相同样本时多名评估员所做名义或顺序评估的一致程度。

例如，45 名患者由两名不同的医生对特定疾病进行评估。医生诊断病情（阳性或阴性）一致的频率有多大？名义评估的另一个例子是检查员对电视屏幕上的缺陷进行评级。他们是否对气泡、洞皮和尘土的分类保持意见一致？

解释 kappa 值

Kappa 值介于 -1 到 +1 之间。kappa 值越大，一致性越高。当：

Kappa = 1 时，存在完全相关。
Kappa = 0 时，一致性与随机预计的相同。
Kappa < 0 时，一致性比随机预计的低；这种情况比较罕见。

AIAG¹ 建议，kappa 值至少为 0.75 表示一致性良好。但是，较大的 kappa 值（如 0.90）是首选。

当进行顺序评级时（比如按 1 到 5 个等级对缺陷严重性进行评定），Kendall 系数（考虑了排序因素）通常是比单独使用 kappa 更适合用来评估关联度的统计量。

Fleiss kappa 和 Cohen kappa 的比较

Minitab 可以计算 Fleiss 的 kappa 和 Cohen 的 kappa。Cohen 的 kappa 是常用于测量两个评定员间的评估一致性的统计数据。Fleiss 的 kappa 是对 2 个以上评定员的 Cohen 的 kappa 的一般化。在属性一致性分析中，Minitab 默认情况下，Minitab 计算 Fleiss 的 kappa 并适时提供计算 Cohen 的 kappa 的选项。

注意

当数据满足以下要求时，Minitab 可以计算 Cohen 的 kappa。

要为“检验员之间”计算 Cohen 的 kappa，每个检验员必须有 2 个试验。
要为“检验员之间”计算 Cohen 的 kappa，必须有 2 个均具有 1 个试验的检验员。
要为“每个检验员与标准”和“所有检验员与标准”计算 Cohen 的 kappa，您必须为每个样本提供标准。

Fleiss 的 kappa 和 Cohen 的 kappa 使用不同方法估计偶然出现一致性的概率。Fleiss 的 kappa 假设评估师是从一组可用的评估师中随机选择的。Cohen 的 kappa 假设评估师是专门选择的并且是固定的。因此，Fleiss 的 kappa 和 Cohen 的 kappa 对协议概率的估计不同。

什么是 Kendall 的一致性系数 (KCC)？

Kendall 一致性系数表示多个检验员在评估相同样本时所做的顺序评估的关联程度。Kendall 系数通常用于属性一致性分析。

解释 Kendall 一致性系数值

Kendall 系数值的范围可以从 0 到 1。Kendall's的价值越高，关联性越强。通常，0.9 或更高的 Kendall 系数被认为是非常好的。高或显著的肯德尔系数意味着检验员在评估样本时采用基本相同的标准。

什么是 Kendall 的相关系数？

如果为每个样本提供一个已知评级，Minitab 还将计算 Kendall 相关系数。为每个检验人员指定相关系数，以确定每个检验人员与已知标准的一致性;以及代表所有检验师的总体系数。相关系数有助于确定某个检验员是否保持了一致性但却不准确。

解释 Kendall 的相关系数

Kendall 系数值的范围可以从 -1 到 1。正值表示正关联。正值表示正向关联。负值表示负向关联。

根据您的样本数据，使用 Kendall 相关系数和它们的 p 值在两个对立假设之间选择：

H₀：所有评估员的评级和已知标准之间没有关联。
H₁：所有评估员完成的评级和已知标准相关。

如果原假设（H₀）为真，则 p 值提供获得样本的可能性，并具有其特定的 Kendall 相关系数。如果 p 值小于或等于预先确定的显著性水平（α 水平），则否定原假设，并声明支持备择假设。

我是否应使用 kappa 统计量或其中一个 Kendall 系数？

如果分类是名义上的（真/假、好/坏、酥脆/生脆/未烤透），可使用 kappa 统计量。
如果分类是顺序上的（根据某一尺度所做评级），除了 kappa 统计量之外，还可以使用 Kendall 一致性系数。
如果分类是顺序上的，且每次试验均有已知标准，除了 kappa 统计量外，还可以使用 Kendall 相关系数。

Kendall 系数测量评级之间的关联性时，Kappa 统计量表示评级之间绝对一致。因此，Kappa 统计量同等对待所有错误分类，但 Kendall 系数区别对待所有错误分类。例如，Kendall 系数认为将一个完美（评级 = 5）对象错误分类为差（评级 = 1）的后果要比将其错误分类为非常好（评级 = 4）更严重。

¹ Automotive Industry Action Group（AIAG）（2010年）。 Measurement Systems Analysis Reference Manual, 4th edition. Chrysler, Ford, General Motors Supplier Quality Requirements Task Force