Das Kappa gibt den Grad der Übereinstimmung der nominalen oder ordinalen Einstufungen durch mehrere Prüfer bei Untersuchung der gleichen Stichproben an.
Angenommen, 45 Patienten werden von zwei verschiedenen Ärzten auf eine bestimmte Krankheit untersucht. Wie oft stimmen die Diagnosen der Ärzte hinsichtlich des Zustands (positiv oder negativ) überein? Ein weiteres Beispiel für nominale Einstufungen stellen Prüfer dar, die Fehler bei Fernsehbildschirmen beurteilen. Stimmen sie durchgängig bei der Klassifikation der Luftblasen, Unebenheiten und Verschmutzungen überein?
Gemäß Empfehlung der AIAG1 zeigt ein Kappa-Wert von mindestens 0,75 eine gute Übereinstimmung an. Größere Kappa-Werte wie 0,90 sind jedoch vorzuziehen.
Wenn ordinale Einstufungen vorliegen, z. B. Einstufungen des Schweregrads von Fehlern auf einer Skala von 1 bis 5, stellen Kendall-Koeffizienten, die die Reihenfolge berücksichtigen, meist eine angemessenere Statistik zum Bestimmen der Assoziation als Kappa allein dar.
Minitab kann das Cohen-Kappa berechnen, wenn Ihre Daten die folgenden Anforderungen erfüllen:
Beim Fleiss-Kappa und Cohen-Kappa werden unterschiedliche Methoden zum Schätzen der Wahrscheinlichkeit für eine zufällige Übereinstimmung verwendet. Beim Fleiss-Kappa wird angenommen, dass die Prüfer nach dem Zufallsprinzip aus einer Gruppe verfügbarer Prüfer ausgewählt wurden. Beim Cohen-Kappa hingegen wird angenommen, dass die Prüfer speziell ausgewählt wurden und festgelegt sind. Daher wird die Wahrscheinlichkeit der Übereinstimmung beim Fleiss-Kappa und beim Cohen-Kappa auf unterschiedliche Weise geschätzt.
Der Kendall-Koeffizient der Konkordanz gibt den Grad der Assoziation der ordinalen Einstufungen durch mehrere Prüfer bei Untersuchung der gleichen Stichproben an. Der Kendall-Koeffizient wird meist in der Analyse der Prüferübereinstimmung bei attributiven Daten verwendet.
Der Kendall-Koeffizient kann Werte im Bereich von 0 bis 1 annehmen. Je höher der Wert des Kendall-Koeffizienten, desto stärker ist die Assoziation. Im Allgemeinen werden Kendall-Koeffizienten von 0,9 oder höher als sehr gut erachtet. Ein hoher oder signifikanter Kendall-Koeffizient bedeutet, dass die Prüfer bei der Einstufung der Stichproben im Wesentlichen denselben Standard ansetzen.
Wenn Sie für jede Stichprobe eine bekannte Einstufung angeben, berechnet Minitab auch die Kendall-Korrelationskoeffizienten. Die Korrelationskoeffizienten werden für jeden Prüfer als Übereinstimmung des betreffenden Prüfers mit dem bekannten Standard angegeben; zudem wird ein Gesamtkoeffizient angegeben, der für alle Prüfer in Bezug auf die Standards gilt. Mit Hilfe des Korrelationskoeffizienten kann leichter ermittelt werden, ob ein Prüfer beständige, aber falsche Einstufungen abgibt.
Der Kendall-Koeffizient kann Werte im Bereich von −1 bis 1 annehmen. Ein positiver Wert gibt eine positive Assoziation an. Ein negativer Wert gibt eine negative Assoziation an. Je größer der Betrag, desto stärker ist die Assoziation ausgeprägt.
Der p-Wert gibt an, wie wahrscheinlich eine Stichprobe mit diesem Kendall-Korrelationskoeffizienten vorliegen würde, wenn die Nullhypothese (H0) wahr wäre. Wenn der p-Wert kleiner oder gleich einem vorher festgelegten Signifikanzniveau (α-Niveau) ist, weisen Sie die Nullhypothese zurück und entscheiden sich für die Alternativhypothese.
Kappa-Statistiken stellen eine absolute Übereinstimmung der Einstufungen dar, während Kendall-Koeffizienten ein Maß für die Assoziationen zwischen den Einstufungen sind. Daher werden für die Kappa-Statistiken alle Fehlklassifikationen gleich behandelt, während dies bei den Kendall-Koeffizienten nicht der Fall ist. So sind die Auswirkungen der Fehlklassifikation eines perfekten Objekts (Einstufung = 5) als schlecht (Einstufung = 1) für die Kendall-Koeffizienten beispielsweise schwerwiegender als die der Fehlklassifikation als sehr gut (Einstufung = 4).