kappa 衡量在评估相同样本时多名评估员所做名义或顺序评估的一致程度。
例如,45 名患者由两名不同的医生对特定疾病进行评估。医生诊断病情(阳性或阴性)一致的频率有多大?名义评估的另一个例子是检查员对电视屏幕上的缺陷进行评级。他们是否对气泡、洞皮和尘土的分类保持意见一致?
AIAG1 建议,kappa 值至少为 0.75 表示一致性良好。但是,较大的 kappa 值(如 0.90)是首选。
当进行顺序评级时(比如按 1 到 5 个等级对缺陷严重性进行评定),Kendall 系数(考虑了排序因素)通常是比单独使用 kappa 更适合用来评估关联度的统计量。
当数据满足以下要求时,Minitab 可以计算 Cohen 的 kappa。
Fleiss 的 kappa 和 Cohen 的 kappa 使用不同方法估计偶然出现一致性的概率。Fleiss 的 kappa 假设评估师是从一组可用的评估师中随机选择的。Cohen 的 kappa 假设评估师是专门选择的并且是固定的。因此,Fleiss 的 kappa 和 Cohen 的 kappa 对协议概率的估计不同。
Kendall 一致性系数表示多个检验员在评估相同样本时所做的顺序评估的关联程度。Kendall 系数通常用于属性一致性分析。
Kendall 系数值的范围可以从 0 到 1。Kendall's的价值越高,关联性越强。通常,0.9 或更高的 Kendall 系数被认为是非常好的。高或显著的肯德尔系数意味着检验员在评估样本时采用基本相同的标准。
如果为每个样本提供一个已知评级,Minitab 还将计算 Kendall 相关系数。为每个检验人员指定相关系数,以确定每个检验人员与已知标准的一致性;以及代表所有检验师的总体系数。相关系数有助于确定某个检验员是否保持了一致性但却不准确。
Kendall 系数值的范围可以从 -1 到 1。正值表示正关联。正值表示正向关联。负值表示负向关联。
如果原假设 (H0) 为真,则 p 值提供获得样本的可能性,并具有其特定的 Kendall 相关系数。如果 p 值小于或等于预先确定的显著性水平(α 水平),则否定原假设,并声明支持备择假设。
Kendall 系数测量评级之间的关联性时,Kappa 统计量表示评级之间绝对一致。因此,Kappa 统计量同等对待所有错误分类,但 Kendall 系数区别对待所有错误分类。例如,Kendall 系数认为将一个完美(评级 = 5)对象错误分类为差(评级 = 1)的后果要比将其错误分类为非常好(评级 = 4)更严重。