κとは

κによって、同じサンプルの評価時に、複数の評価者によって作成された名義または順位評価の一致度が測定されます。

たとえば、ある特定の病気があるかどうかの診断を2人の医師が45人の患者に対して実施しました。病気の有無に関する2人の医師の診断はどの程度一致するでしょうか。名義評価の別の例として、検査者間でのテレビ画面の故障発見度が考えられます。検査者ごとの気泡、くぼみ、および汚れなどの分類は、一貫して一致するでしょうか。

κ値の解釈

κ統計の値の範囲は-1~+1です。値が高いほど一致度も高くなります。次に例を示します。
  • κ = 1の場合、評価は完全に一致しています。
  • κ = 0の場合、一致は偶然の所産として期待されるものと同じです。
  • κ < 0は、一致の度合いが偶然の所産として期待されるより弱いときですが、これはめったに起こりません。

AIAG1では、k値が少なくとも0.75あれば、良好な一致であると述べています。ただし、0.90などのより高いκ値のほうが望ましい値です。 

欠陥の程度を1~5段階で表したものなど、順序評価を用いている場合は、κ統計だけを利用するよりはKendall係数も利用する方が適切です。

FleissのκとCohenのκの比較

Minitabでは、FleissのκとCohenのκを計算できます。Cohenのκは、2人の評価者の間の評価一致を測定するためによく使用される統計量です。Fleissのκは、Cohenのκを3人以上の評価者に使用できるように一般化したものです。Minitabでは、属性の一致性分析において、デフォルトでFleissのκが計算され、適切な場合にはCohenのκを選択するオプションが表示されます。

データが次の要件を満たす場合には、Cohenのκが計算されます。

  • 検査者内の一致に対してCohenのκを計算するには、各検査者に対して2回の試行がある必要があります。
  • 検査者間の一致に対してCohenのκを計算するには、1回の試行で2人の検査者がいる必要があります。
  • 各検査者対標準およびすべての検査者対標準の一致に対してCohenのκを計算するには、各サンプルに対して標準を指定する必要があります。

FleissのκおよびCohenのκでは、一致が偶然に発生する確率を推定するのに異なる方法が用いられます。Fleissのκでは、検査者のグループから検査者がランダムに選ばれることを前提とします。Cohenのκでは、特定の検査者が選ばれ、検査者は変わらないことを前提とします。したがって、FleissのκとCohenのκでは、一致確率の推定が異なります。

Kendallの一致係数(KCC)とは

Kendallの一致係数は、同じサンプルの評価時に、複数の測定者によって作成された順序評価の関連度を表します。Kendallの一致係数は一般的に、属性の一致分析で使用します。

Kendallの一致係数値の解釈

Kendallの係数値の範囲は0~1で、Kendallの値が高いほど、関連例が強くなります。通常、Kendallの係数が0.9以上であれば、非常に良好と言えます。Kendallの係数が高い、または有意である場合、検査者はサンプルの評価に本質的に同じ基準を用いたと判定できます。

Kendallの相関係数とは

各サンプルの既知の評定をMinitabに入力すると、Kendallの相関係数も計算されます。相関係数は、各検査者と既知の標準の一致度を示すために各検査者に適用され、全体的な係数は検査者全員と標準の一致度を表します。相関係数は、検査者の評価に一貫性があっても正確かどうかを判断するのに役立ちます。

Kendallの相関係数の解釈

Kendallの係数の値の範囲は-1~1です。正の値は正の関連性を示し。負の値は負の関連性を示します。値が高くなるほど関連の度合いは強くなります。

Kendallの相関係数とそのp値は、サンプルデータに基づき、対立する2つの仮説のどちらかを選択するために使用します。
  • H0: 全評価者の評定と既知の標準との間に関連性はない。
  • H1: 全評価者の評定と既知の標準との間には関連性がある。

p値からは、帰無仮説(H0)が真である場合、どの程度の確率でサンプルのKendallの一致係数が得られるかを知ることができます。P値があらかじめ設定されている有意水準(α水準)以下の場合、帰無仮説を棄却して対立仮説を選択します。

κ統計とKendallの係数のどちらを使用するか

  • 分類が名義値(真/偽、良好/不良、サクッとしている/バリバリしている/柔らかい)の場合は、κ統計を使用します。
  • 分類が順位(段階評定)の場合は、κ統計に加えて、Kendallの一致係数を使用します。
  • 分類が順位で、かつ各試行の既知の標準がある場合は、κ統計に加えてKendallの相関係数を使用します。

κ統計は評定間の絶対一致を表すの対し、Kendallの係数は評定間の関連性を測定します。したがって、すべての誤判別はκ統計では同等に扱われますが、Kendallの係数では同等に扱われません。たとえば、Kendallの係数では、「完璧」(評定 = 5)な対象を「不良」(評定 = 1)と評価するほうが、「非常に良好」(評定 = 4)と評価するよりも誤判別の影響が重大であると見なされます。

1 Automotive Industry Action Group(AIAG)(2010)。Measurement Systems Analysis Reference Manual, 4th edition。Chrysler, Ford, General Motors Supplier Quality Requirements Task Force
本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください