Direct naar inhoud
Alle termenData, evaluatie & metrics

Wat is Matthews Correlation Coefficient?

Een betrouwbare manier om te meten hoe goed een AI-model voorspellingen doet, ook als de data scheef verdeeld is — bijvoorbeeld bij zeldzame ziektes of fraude.

Wat is Matthews Correlation Coefficient

Wat is de Matthews Correlation Coefficient eigenlijk?

Stel je voor: je bouwt een AI-systeem dat moet herkennen of iemand een zeldzame ziekte heeft. Van de 1000 mensen die je test, hebben er maar 10 die ziekte. Als je model nu simpelweg bij iedereen zegt "geen ziekte", dan klopt het al in 99% van de gevallen. Klinkt goed, toch? Maar het mist juist alle zieke mensen — precies degenen waar het om gaat.

De Matthews Correlation Coefficient (vaak afgekort tot MCC) is een getal tussen -1 en +1 dat je vertelt hoe goed je model echt presteert, ook als de verhoudingen in je data scheef zijn. Een MCC van +1 betekent: perfecte voorspellingen. Een 0 betekent: niet beter dan willekeurig gokken. En -1 betekent: alles precies verkeerd.

Waarom is dit belangrijk?

Veel AI-modellen worden beoordeeld op "accuracy" — hoeveel procent van de voorspellingen klopt. Maar dat werkt alleen als je data netjes verdeeld is. In de praktijk is dat zelden zo:

  • Bij fraudedetectie is 99,9% van de transacties legitiem

  • Bij medische screening heeft 95% van de mensen géén ziekte

  • Bij kwaliteitscontrole in fabrieken is 98% van de producten goed

In al deze gevallen kun je een schijnbaar "goed" model bouwen dat eigenlijk niets doet. De MCC doorprikt dat. Het kijkt namelijk naar vier dingen tegelijk:

  • Echte positieven: zieke mensen die je als ziek herkent

  • Echte negatieven: gezonde mensen die je als gezond herkent

  • Valse positieven: gezonde mensen die je ten onrechte als ziek bestempelt

  • Valse negatieven: zieke mensen die je mist

De formule weegt al deze aspecten mee en geeft je één cijfer dat de volledige prestatie samenvat — ongeacht hoe scheef je data is.

Een voorbeeld uit de praktijk

Een online platform wil nepprofielen herkennen. Van de 100.000 accounts zijn er 500 nep (0,5%). Twee modellen worden getest:

Model A zegt bij iedereen "echt account". Accuracy: 99,5%. Klinkt indrukwekkend, maar MCC is 0 — het gokken zou even goed werken.

Model B herkent 400 van de 500 nepprofielen en maakt bij 1000 echte accounts een fout. Accuracy: 98,5% (lager!). Maar de MCC is 0,52 — dit model doet echt iets nuttigs.

Zie je het verschil? De MCC laat zien welk model daadwerkelijk waarde toevoegt, in plaats van gewoon mee te liften op de scheefheid van de data.

Waar kom je het tegen?

De Matthews Correlation Coefficient wordt vooral gebruikt in sectoren waar de verhoudingen scheef zijn en fouten veel impact hebben:

  • Medische AI: diagnose van zeldzame aandoeningen, voorspellen van ziekenhuisopnames

  • Cybersecurity: detectie van malware, phishing, ongebruikelijke login-pogingen

  • Financiële diensten: opsporen van fraude, witwassen, kredietrisico's

  • Productie & logistiek: voorspellen van machinedefecten, kwaliteitscontrole

  • Wetenschappelijk onderzoek: evaluatie van voorspellingsmodellen in biologie, chemie, klimaat

In machine learning tools zoals scikit-learn (Python) kun je de MCC met één functie berekenen. Ook in onderzoekspapers over classificatie zie je de MCC steeds vaker naast of in plaats van accuracy.

Wat kun je ermee?

Als je met AI werkt en te maken hebt met ongelijke verdelingen in je data, vraag dan altijd naar de MCC — niet alleen naar accuracy. Het voorkomt dat je een schijnbaar goed model in productie neemt dat in de praktijk niets doet.

Ben je zelf aan het experimenteren met classificatiemodellen? Bereken de MCC naast je andere metrics. Het geeft je een eerlijker beeld van of je model echt leert, of gewoon de makkelijke weg kiest door alles in de grootste categorie te stoppen. En dat scheelt achteraf veel teleurstelling.

FAQ

Veelgestelde vragen over Matthews Correlation Coefficient

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Matthews Correlation Coefficient?

Een betrouwbare manier om te meten hoe goed een AI-model voorspellingen doet, ook als de data scheef verdeeld is — bijvoorbeeld bij zeldzame ziektes of fraude.

Waarom is Matthews Correlation Coefficient belangrijk?

Stel je voor: je bouwt een AI-systeem dat moet herkennen of iemand een zeldzame ziekte heeft. Van de 1000 mensen die je test, hebben er maar 10 die ziekte. Als je model nu simpelweg bij iedereen zegt "geen ziekte", dan klopt het al in 99% van de gevallen. Klinkt goed, toch? Maar het mist juist alle zieke mensen — precies degenen waar het om gaat.

Hoe wordt Matthews Correlation Coefficient toegepast?

De Matthews Correlation Coefficient (vaak afgekort tot MCC) is een getal tussen -1 en +1 dat je vertelt hoe goed je model echt presteert, ook als de verhoudingen in je data scheef zijn. Een MCC van +1 betekent: perfecte voorspellingen. Een 0 betekent: niet beter dan willekeurig gokken. En -1 betekent: alles precies verkeerd.

Deel: