Alle termenData, evaluatie & metrics

Wat is Precision-Recall Curve?

Een grafiek die laat zien hoe goed een AI-model balanceert tussen het vinden van alle relevante dingen en het vermijden van fouten — een visuele afweging tussen 'alles vinden' en 'alleen de juiste dingen vinden'.

Wat is een Precision-Recall Curve?

Stel je voor dat je een AI-model hebt gemaakt dat spammail moet herkennen. Dat model staat voor een dilemma: wil je heel streng zijn en alleen échte spam markeren (dan mis je misschien wel spam), of wil je juist alle mogelijke spam vinden (dan gaan er misschien ook normale mails in de spambox)? De precision-recall curve is een grafiek die precies laat zien hoe jouw model met dit dilemma omgaat.

Het werkt zo: precision (nauwkeurigheid) meet hoeveel van de dingen die je model als 'spam' markeert ook daadwerkelijk spam zijn. Recall (volledigheid) meet hoeveel van alle spam in je inbox het model ook echt vindt. Deze twee kun je meestal niet tegelijk maximaliseren — als je strenger wordt, stijgt je precision maar daalt je recall. Word je minder streng, dan vind je meer spam (hogere recall) maar krijg je ook meer fouten (lagere precision).

De curve toont alle mogelijke balansen tussen deze twee, waarbij elk punt op de grafiek een andere drempelwaarde vertegenwoordigt. Zo kun je in één oogopslag zien: bij welke instelling vind ik 90% van de spam, en hoeveel fouten maak ik dan?

Waarom zou jij hier iets aan hebben?

Als je een AI-model evalueert, vertelt een simpel accurateness-percentage lang niet het hele verhaal. Vooral bij ongelijke datasets — denk aan fraudedetectie (99% van transacties is normaal) of zeldzame ziektes detecteren — is de precision-recall curve onmisbaar.

Stel: je bouwt een model dat creditcardfraude detecteert. Van de 10.000 transacties is er misschien maar 1 frauduleus. Een dom model dat alles als 'normaal' classificeert haalt 99,99% accuratesse, maar vindt geen enkele fraude. Daar heb je niets aan. De precision-recall curve laat wél zien hoe goed je model de zeldzame fraudegevallen vindt, en hoeveel valse alarmen je daarbij krijgt.

Je kunt ermee bepalen waar je de grens legt: wil je liever 95% van alle fraude vinden en daarbij 100 onschuldige transacties extra checken? Of accepteer je dat je 20% van de fraude mist, maar houd je het aantal valse alarmen minimaal? Die keuze hangt af van je situatie — en de curve geeft je de informatie om die bewust te maken.

Een voorbeeld uit de praktijk

Een ziekenhuis gebruikt een AI-model om vroege tekenen van longkanker op röntgenfoto's te detecteren. Ze hebben duizenden foto's, waarvan een klein percentage daadwerkelijk kanker toont.

Ze testen het model en krijgen een precision-recall curve. Bij een bepaalde instelling vindt het model 98% van alle kankergevallen (hoge recall) — maar markeert daarbij ook 30% van de gezonde scans als 'verdacht' (lagere precision). Dat betekent veel onnodig vervolgonderzoek en bezorgde patiënten.

Door naar de curve te kijken, zien ze dat ze bij een iets andere drempelwaarde nog steeds 92% van de kankergevallen vinden, maar het aantal valse alarmen halveren. Dat is een betere balans voor hun situatie: de meeste kanker wordt gevonden, maar minder mensen krijgen onnodig stress.

Zonder die curve zouden ze alleen een overall-score zien en missen ze deze nuance — terwijl het verschil direct levens beïnvloedt.

Waar kom je het tegen?

De precision-recall curve is een standaard-evaluatiemethode in vrijwel alle machine learning-omgevingen:

Scikit-learn (Python) heeft ingebouwde functies om precision-recall curves te genereren en te visualiseren
TensorFlow en PyTorch bieden libraries voor model-evaluatie waarin deze grafiek centraal staat
Weights & Biases, MLflow en andere experiment-tracking tools tonen automatisch precision-recall curves voor classificatiemodellen
Azure ML, Google Vertex AI en AWS SageMaker genereren deze curves bij model-evaluaties
Kaggle-competities en wetenschappelijke papers gebruiken vaak de area under the precision-recall curve (AUPRC) als vergelijkingsmaat tussen modellen

Elke keer dat je een classificatiemodel bouwt — of dat nu spam is, fraude, ziekte-detectie of klantenafwisseling — is deze grafiek een van de eerste dingen die je bekijkt.

Hoe lees je de curve?

De grafiek heeft recall op de horizontale as (hoeveel van alle positieve gevallen vind je?) en precision op de verticale as (hoeveel van je 'positieve' voorspellingen kloppen?).

Een perfecte curve zou rechtsboven in de hoek zitten: 100% recall én 100% precision. In de praktijk zie je meestal een dalende lijn van linksboven naar rechtsonder — naarmate je meer cases vindt, maak je ook meer fouten.

Hoe dichter de curve bij de rechterbovenhoek blijft, hoe beter je model presteert. Een curve die snel naar beneden zakt betekent: om alle gevallen te vinden, moet je heel veel fouten accepteren.

De area under the curve (AUPRC) vat de prestatie samen in één getal tussen 0 en 1 — hoe hoger, hoe beter de balans tussen precision en recall over alle drempelwaarden.

Wat kun je ermee?

Begrijp deze curve en je kunt bewuste keuzes maken over je AI-model: waar leg je de grens tussen te streng en te los? Welke fouten zijn acceptabel in jouw situatie? En belangrijker nog: je kunt modellen eerlijk vergelijken, zelfs als ze voor heel verschillende situaties gebruikt worden. Of je nu spam filtert, fraude detecteert of ziektes opspoort — de precision-recall curve geeft je het inzicht om je model af te stemmen op wat er in jouw praktijk echt toe doet.