Direct naar inhoud
Alle termenData, evaluatie & metrics

Wat is Cohen's Kappa?

Een statistisch getal dat meet hoe goed twee beoordelaars het met elkaar eens zijn — rekening houdend met toeval. Gebruikt bij het checken of AI-labels betrouwbaar zijn.

Wat is Cohen's Kappa

Wat is Cohen's Kappa eigenlijk?

Stel je voor: jij en een collega moeten allebei 100 e-mails labelen als 'spam' of 'niet spam'. Jullie zijn het in 85 keer eens. Klinkt goed, toch? Maar als 80% van alle e-mails in jullie stapel toevallig toch al spam is, dan zou je puur door te gokken al vaak hetzelfde antwoord geven — zonder dat jullie echt hetzelfde zien.

Cohen's Kappa is een getal tussen -1 en 1 dat meet hoe goed twee mensen (of systemen) het met elkaar eens zijn, maar dan gecorrigeerd voor toeval. Een score van 0 betekent: jullie zijn het niet meer eens dan je zou verwachten door puur geluk. Een score van 1 betekent: perfecte overeenstemming. Negatieve waarden betekenen dat jullie het systematisch oneens zijn — wat je bijna nooit ziet.

Waarom zou jij hier iets aan hebben?

Bij het trainen van AI-modellen is data-labeling cruciaal. Je hebt datasets nodig waarin iemand (of meerdere mensen) elke foto, tekst of audio heeft gelabeld: dit is een kat, dit is een hond, dit is spam, dit is safe content. Maar hoe weet je of die labels betrouwbaar zijn?

Daarom laat je vaak meerdere mensen dezelfde data labelen. Met Cohen's Kappa kun je meten of ze echt hetzelfde bedoelen, of dat ze alleen toevallig vaak hetzelfde hokje aankruisen. Dat is belangrijk, want als je labelers het onderling oneens zijn, dan train je AI op ruis — en krijg je een model dat raar doet.

Praktische vuistregel:

  • Kappa < 0,40 → slechte overeenstemming, labelers snappen de opdracht niet of de categorieën zijn onduidelijk

  • Kappa 0,40–0,60 → matig, kan beter

  • Kappa 0,60–0,80 → goed

  • Kappa > 0,80 → uitstekend, je labels zijn betrouwbaar

Een voorbeeld uit de praktijk

Een ziekenhuis wil een AI-model trainen dat röntgenfoto's beoordeelt op longontsteking. Twee radiologen krijgen dezelfde 200 foto's te zien en moeten elk labelen: 'longontsteking' of 'geen longontsteking'. Ze zijn het in 170 gevallen eens.

Maar: 140 van de 200 foto's zijn gezond. Dus puur door te gokken 'geen longontsteking' zou je al vaak gelijk hebben. Cohen's Kappa corrigeert daarvoor. Als de Kappa-score 0,75 is, weet het ziekenhuis: deze twee radiologen zijn het echt inhoudelijk eens, niet alleen toevallig. Dat geeft vertrouwen in de dataset waarmee het AI-model getraind wordt.

Waar kom je het tegen?

Cohen's Kappa wordt vooral gebruikt in situaties waar je de kwaliteit van menselijke beoordelingen moet checken voordat je ze als grondwaarheid (ground truth) gebruikt:

  • Data-labeling platforms zoals Label Studio, Labelbox, of Amazon SageMaker Ground Truth — die berekenen vaak automatisch inter-annotator agreement met Kappa

  • Medische AI-projecten — waar radiologen, pathologen of andere specialisten datasets labelen

  • Content moderatie — bij het trainen van modellen die haatspraak, geweld of spam detecteren

  • Wetenschappelijk onderzoek — in papers over machine learning zie je Kappa-scores om de betrouwbaarheid van datasets te onderbouwen

  • A/B-testen van labelers — bedrijven die met externe annotators werken, gebruiken Kappa om te checken of iedereen dezelfde richtlijnen volgt

Beperkingen

Cohen's Kappa werkt voor twee beoordelaars. Heb je er meer? Dan gebruik je varianten zoals Fleiss' Kappa. Ook werkt de score minder goed bij zeer scheve verdelingen (als 99% van je data dezelfde label heeft). In dat geval kijk je vaak ook naar andere metrics, zoals percentage overeenstemming of specifieke confusion matrices.

Wat kun je er nu mee?

Als je zelf AI-projecten opzet of datasets koopt, vraag dan naar de inter-annotator agreement. Een hoge Cohen's Kappa (boven 0,70) geeft je vertrouwen dat de labels kloppen. Lage scores? Dan is het slim om je labelinstructies aan te scherpen of moeilijke gevallen opnieuw te laten beoordelen — voordat je een model traint dat misschien alleen maar ruis leert.

FAQ

Veelgestelde vragen over Cohen's Kappa

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Cohen's Kappa?

Een statistisch getal dat meet hoe goed twee beoordelaars het met elkaar eens zijn — rekening houdend met toeval. Gebruikt bij het checken of AI-labels betrouwbaar zijn.

Waarom is Cohen's Kappa belangrijk?

Stel je voor: jij en een collega moeten allebei 100 e-mails labelen als 'spam' of 'niet spam'. Jullie zijn het in 85 keer eens. Klinkt goed, toch? Maar als 80% van alle e-mails in jullie stapel toevallig toch al spam is, dan zou je puur door te gokken al vaak hetzelfde antwoord geven — zonder dat jullie echt hetzelfde zien.

Hoe wordt Cohen's Kappa toegepast?

Cohen's Kappa is een getal tussen -1 en 1 dat meet hoe goed twee mensen (of systemen) het met elkaar eens zijn, maar dan gecorrigeerd voor toeval. Een score van 0 betekent: jullie zijn het niet meer eens dan je zou verwachten door puur geluk. Een score van 1 betekent: perfecte overeenstemming. Negatieve waarden betekenen dat jullie het systematisch oneens zijn — wat je bijna nooit ziet.

Deel: