什么是 kappa?

kappa 衡量在评估相同样本时多名评估员所做名义或顺序评估的一致程度。

例如,两名医生对 45 位患者是否患有某种特定疾病进行评估。医生诊断病情(阳性或阴性)一致的频率有多高?另一个名义评估的示例是检验员对电视屏幕上缺陷的评级。他们对气泡、起皮和尘土的分类是否意见一致?

解释 kappa 值

Kappa 值的范围为 –1 到 +1。kappa 值越高,一致性就越强。当:
  • Kappa = 1 时,表明完全一致。
  • Kappa = 0 时,则一致性与偶然预期的相同。
  • Kappa < 0 时,一致性比偶然预期的还要弱,不过这种情况很少发生。

AIAG1 建议 kappa 值至少为 0.75 表示一致性强。但是,最好使用较大的 kappa 值,如 0.90。

当进行顺序评级时(比如按 1 到 5 个等级对缺陷严重性进行评定),Kendall 系数(考虑了排序因素)通常是比单独使用 kappa 更适合用来评估关联度的统计量。

Fleiss kappa 和 Cohen kappa 的比较

Minitab 可以计算 Fleiss 的 kappa 和 Cohen 的 kappa。Cohen 的 kappa 是常用于测量两个评定员间的评估一致性的统计数据。Fleiss 的 kappa 是对 2 个以上评定员的 Cohen 的 kappa 的一般化。在 属性一致性分析 中,Minitab 默认情况下,Minitab 计算 Fleiss 的 kappa 并适时提供计算 Cohen 的 kappa 的选项。
注意

当数据满足以下要求时,Minitab 可以计算 Cohen 的 kappa:

  • 要为“检验员之间”计算 Cohen 的 kappa,每个检验员必须有 2 个试验。
  • 要为“检验员之间”计算 Cohen 的 kappa,必须有 2 个均具有 1 个试验的检验员。
  • 要为“每个检验员与标准”和“所有检验员与标准”计算 Cohen 的 kappa,您必须为每个样本提供标准。

Fleiss 的 kappa 和 Cohen 的 kappa 使用不同方法估计偶然出现一致性的概率。Fleiss 的 kappa 假设检验员是从一组可用检验员中随机选择的。Cohen 的 kappa 假设检验员是特意选择且保持固定。因此,Fleiss 的 kappa 和 Cohen 的 kappa 使用不同方法估计一致性的概率。

什么是 Kendall 的一致性系数 (KCC)?

Kendall 的一致性系数表示在评估相同样本时多名评估员所做顺序评估的关联程度。Kendall 系数常用于属性一致性分析。

解释 Kendall 一致性系数值

Kendall 系数值介于 0 和 1 之间。Kendall 值越大,关联程度约强。一般而言,当 Kendall 系数为 0.9 或以上时,就认为关联程度很好。较高或显著的 Kendall 系数意味着检验员评估样本时采用的是基本一致的标准。

什么是 Kendall 的相关系数?

如果为每个样本提供一个已知评级,Minitab 还将计算 Kendall 的相关系数。这些相关系数将提供给每位检验员以确定每位检验员与已知标准的一致性;而总体系数表示所有检验员与标准的一致性。相关系数有助于确定某位检验员是否保持了一致性但却不准确。

解释 Kendall 的相关系数

Kendall 的系数值可以从 −1 变化到 1。正值表示正向关联。负值表示负向关联。值越大,关联程度越强。

根据您的样本数据,使用 Kendall 相关系数和它们的 p 值在两个对立假设之间选择:
  • H0:所有评估员的评级和已知标准之间没有关联。
  • H1:所有评估员完成的评级和已知标准相关。

如果原假设 (H0) 为真,p 值将提供得到具有其特定 Kendall 相关系数的样本的概率。如果 p 值小于或等于预先确定的显著性水平(α 水平),则否定原假设,并声明支持备择假设。

我是否应使用 kappa 统计量或其中一个 Kendall 系数?

  • 如果分类是名义上的(真/假、好/坏、酥脆/生脆/未烤透),可使用 kappa 统计量。
  • 如果分类是顺序上的(根据某一尺度所做评级),除了 kappa 统计量之外,还可以使用 Kendall 一致性系数。
  • 如果分类是顺序上的,且每次试验均有已知标准,除了 kappa 统计量外,还可以使用 Kendall 相关系数。

Kendall 系数测量评级之间的关联性时,Kappa 统计量表示评级之间绝对一致。因此,Kappa 统计量同等对待所有错误分类,但 Kendall 系数区别对待所有错误分类。例如,Kendall 系数认为将一个完美(评级 = 5)对象错误分类为差(评级 = 1)的后果要比将其错误分类为非常好(评级 = 4)更严重。

1 汽车工业行动组织 (AIAG) (2010)。Measurement Systems Analysis Reference Manual(测量系统分析参考手册),第 4 版。 Chrysler, Ford, General Motors Supplier Quality Requirements Task Force(克莱斯勒、福特、通用汽车供应商质量要求行动组织)
使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策