Was ist das Kappa?

Das Kappa gibt den Grad der Übereinstimmung der nominalen oder ordinalen Einstufungen durch mehrere Prüfer bei Untersuchung der gleichen Stichproben an.

Angenommen, 45 Patienten werden von zwei verschiedenen Ärzten auf eine bestimmte Krankheit untersucht. Wie oft stimmen die Diagnosen der Ärzte hinsichtlich des Zustands (positiv oder negativ) überein? Ein weiteres Beispiel für nominale Einstufungen stellen Prüfer dar, die Fehler bei Fernsehbildschirmen beurteilen. Stimmen sie durchgängig bei der Klassifikation der Luftblasen, Löcher und Verschmutzungen überein?

Interpretieren der Kappa-Werte

Kappa kann Werte im Bereich von −1 bis +1 annehmen. Je größer der Kappa-Wert, desto höher ist die Übereinstimmung. Wenn:
  • Kappa = 1, liegt eine vollkommene Übereinstimmung vor.
  • Kappa = 0, entspricht die Übereinstimmung der erwarteten zufälligen Übereinstimmung.
  • Kappa < 0, ist die Übereinstimmung geringer als die erwartete zufällige Übereinstimmung. Dies tritt jedoch selten auf.

Die AIAG1 zeigt ein Kappa-Wert von mindestens 0,75 eine gute Übereinstimmung an. Größere Kappa-Werte wie 0,90 sind jedoch vorzuziehen.

Wenn ordinale Einstufungen vorliegen, z. B. Einstufungen des Schweregrads von Fehlern auf einer Skala von 1 bis 5, stellen Kendall-Koeffizienten, die die Reihenfolge berücksichtigen, meist eine angemessenere Statistik zum Bestimmen der Assoziation als Kappa allein dar.

Vergleich von Fleiss-Kappa und Cohen-Kappa

Minitab kann sowohl das Fleiss-Kappa als auch das Cohen-Kappa berechnen. Das Cohen-Kappa ist eine gängige Statistik zum Messen der Übereinstimmung der Einstufungen zwischen zwei Prüfern. Das Fleiss-Kappa ist eine Verallgemeinerung des Cohen-Kappa für mehr als zwei Prüfer. In Prüferübereinstimmung bei attributiven Daten, berechnet Minitab standardmäßig das Fleiss-Kappa und bietet die Möglichkeit, bei Bedarf auch das Cohen-Kappa zu berechnen.
Hinweis

Minitab kann das Cohen-Kappa berechnen, wenn Ihre Daten die folgenden Anforderungen erfüllen:

  • Zum Berechnen des Cohen-Kappa für „Innerhalb der Prüfer“ müssen für jeden Prüfer zwei Versuche vorhanden sein.
  • Zum Berechnen des Cohen-Kappa für „Zwischen Prüfern“ müssen zwei Prüfer mit jeweils einem Versuch vorhanden sein.
  • Zum Berechnen des Cohen-Kappa für „Jeder Prüfer im Vergleich zum Standard“ und „Alle Prüfer im Vergleich zum Standard“ müssen Sie einen Standard für jede Stichprobe angeben.

Beim Fleiss-Kappa und Cohen-Kappa werden unterschiedliche Methoden zum Schätzen der Wahrscheinlichkeit für eine zufällige Übereinstimmung verwendet. Beim Fleiss-Kappa wird angenommen, dass die Prüfer nach dem Zufallsprinzip aus einer Gruppe verfügbarer Prüfer ausgewählt wurden. Beim Cohen-Kappa hingegen wird angenommen, dass die Prüfer speziell ausgewählt wurden und festgelegt sind. Daher wird die Wahrscheinlichkeit der Übereinstimmung beim Fleiss-Kappa und beim Cohen-Kappa auf unterschiedliche Weise geschätzt.

Was ist der Kendall-Koeffizient der Konkordanz (KCC)?

Der Kendall-Koeffizient der Konkordanz gibt den Grad der Assoziation der ordinalen Einstufungen durch mehrere Prüfer bei Untersuchung der gleichen Stichproben an. Der Kendall-Koeffizient wird meist in der Analyse der Prüferübereinstimmung bei attributiven Daten verwendet.

Interpretieren der Werte des Kendall-Koeffizienten der Konkordanz

Die Koeffizientenwerte von Kendall können zwischen 0 und 1 liegen. Je höher der Wert von Kendall's, desto stärker die Assoziation. Im Allgemeinen werden Kendall-Koeffizienten von 0,9 oder höher als sehr gut erachtet. Ein hoher oder signifikanter Kendall-Koeffizient bedeutet, dass die Prüfer bei der Einstufung der Stichproben im Wesentlichen denselben Standard ansetzen.

Was ist der Kendall-Korrelationskoeffizient?

Wenn Sie für jede Stichprobe eine bekannte Einstufung angeben, berechnet Minitab auch die Kendall-Korrelationskoeffizienten. Die Korrelationskoeffizienten werden für jeden Prüfer als Übereinstimmung des betreffenden Prüfers mit dem bekannten Standard angegeben; zudem wird ein Gesamtkoeffizient angegeben, der für alle Prüfer in Bezug auf die Standards gilt. Mit Hilfe des Korrelationskoeffizienten kann leichter ermittelt werden, ob ein Prüfer beständige, aber falsche Einstufungen abgibt.

Interpretieren des Kendall-Korrelationskoeffizienten

Die Koeffizientenwerte von Kendall können zwischen -1 und 1 liegen. Ein positiver Wert weist auf eine positive Assoziation hin. Ein negativer Wert verweist auf eine negative Assoziation. Je größer der Betrag, desto stärker ist die Assoziation ausgeprägt.

Wählen Sie anhand der Stichprobendaten mit Hilfe des Kendall-Korrelationskoeffizienten und der zugehörigen p-Werte eine von zwei gegensätzlichen Hypothesen aus:
  • H0: Zwischen den Einstufungen aller Prüfer und dem bekannten Standard besteht keine Assoziation.
  • H1: Zwischen den Einstufungen aller Prüfer und dem bekannten Standard besteht eine Assoziation.

Der p-Wert gibt die Wahrscheinlichkeit an, Ihre Stichprobe mit ihrem speziellen Kendall-Korrelationskoeffizienten zu erhalten, wenn die Nullhypothese (H0) wahr ist. Wenn der p-Wert kleiner oder gleich einem vorher festgelegten Signifikanzniveau (α-Niveau) ist, weisen Sie die Nullhypothese zurück und entscheiden sich für die Alternativhypothese.

Sollte die Kappa-Statistik oder einer der Kendall-Koeffizienten verwendet werden?

  • Wenn die Klassifikationen nominal (wahr/falsch, OK/Ausschuss, knusprig/knackig/durchweicht) sind, verwenden Sie die Kappa-Statistik.
  • Wenn die Klassifikationen ordinal (Einstufungen auf einer Skala) sind, verwenden Sie zusätzlich zur Kappa-Statistik den Kendall-Koeffizienten der Konkordanz.
  • Wenn die Klassifikationen ordinal sind und für jeden Versuch ein bekannter Standard vorhanden ist, verwenden Sie zusätzlich zur Kappa-Statistik den Kendall-Korrelationskoeffizienten.

Kappa-Statistiken stellen eine absolute Übereinstimmung der Einstufungen dar, während Kendall-Koeffizienten ein Maß für die Assoziationen zwischen den Einstufungen sind. Daher werden für die Kappa-Statistiken alle Fehlklassifikationen gleich behandelt, während dies bei den Kendall-Koeffizienten nicht der Fall ist. So sind die Auswirkungen der Fehlklassifikation eines perfekten Objekts (Einstufung = 5) als schlecht (Einstufung = 1) für die Kendall-Koeffizienten beispielsweise schwerwiegender als die der Fehlklassifikation als sehr gut (Einstufung = 4).

1 Automotive Industry Action Group (AIAG) (2010). Measurement Systems Analysis Reference Manual, 4th edition.Chrysler, Ford, General Motors Supplier Quality Requirements Task Force