Alle termenData, evaluatie & metrics

Wat is F1 Score?

Een getalletje dat aangeeft hoe goed een AI-model presteert door zowel nauwkeurigheid als volledigheid mee te wegen — handig als je wilt weten of je model niet alleen goede voorspellingen doet, maar ook geen belangrijke dingen mist.

Wat is de F1 Score eigenlijk?

Stel je voor: je hebt een AI-model gebouwd dat e-mails moet sorteren in 'belangrijk' en 'onbelangrijk'. Het model zegt bij 10 mails: "Deze zijn belangrijk!" En inderdaad, die 10 zijn het ook. Maar... het heeft ondertussen 50 andere belangrijke mails gemist en die gewoon genegeerd. Technisch gezien waren z'n voorspellingen correct, maar het hele plaatje klopt niet.

Dit is precies waar de F1 Score om gaat. Het is een getal tussen 0 en 1 (of soms uitgedrukt als percentage) dat twee dingen combineert:

Precisie — van wat het model als 'belangrijk' aanwijst, hoeveel daarvan klopt er echt?
Recall (ook wel 'volledigheid') — van alle dingen die echt belangrijk zijn, hoeveel vindt het model er?

De F1 Score neemt het gemiddelde van deze twee op een slimme manier, zodat je niet kunt spieken door alleen maar op één van de twee te focussen. Een score van 0,85 betekent bijvoorbeeld dat je model het op beide fronten redelijk goed doet. Een score van 0,40 betekent dat er nog veel te verbeteren valt.

Waarom zou jij hier iets aan hebben?

Als je een AI-model bouwt of inkoopt, wil je weten of het z'n werk goed doet. Maar 'goed' heeft meerdere kanten. Neem fraudedetectie bij een bank: je wilt dat het model zoveel mogelijk échte fraude vindt (recall), maar je wilt ook niet dat het constant onterecht alarm slaat bij normale transacties (precisie). Als je alleen naar één van die twee kijkt, krijg je een vertekend beeld.

De F1 Score dwingt je om beide te wegen. Het is vooral waardevol in situaties waar fouten in twee richtingen allebei vervelend zijn — bijvoorbeeld bij medische diagnoses, spamfilters, of het herkennen van defecte producten op een lopende band.

Een praktijkvoorbeeld

Stel: een ziekenhuis gebruikt AI om kankercellen op röntgenfoto's te herkennen. Het model krijgt 100 foto's:

20 bevatten daadwerkelijk kanker
80 zijn schoon

Het model markeert 15 foto's als 'kanker':

12 daarvan kloppen (échte kanker)
3 zijn vals alarm
Maar het heeft 8 kankercellen gemist

Precisie = 12 / 15 = 0,80 (80% van z'n alarmbellen klopt)

Recall = 12 / 20 = 0,60 (het vindt maar 60% van de kanker)

F1 Score = ongeveer 0,69

Dat is een matige score — het model is té voorzichtig en mist te veel gevaarlijke gevallen. Je zou de instellingen moeten aanpassen zodat het meer signaleert (hogere recall), ook al betekent dat wat meer vals alarm.

Waar kom je het tegen?

De F1 Score is een standaard-metric in vrijwel alle machine learning-projecten waar classificatie een rol speelt:

Klantdata-analyse — voorspellen welke klanten gaan vertrekken
Contentmoderatie — schadelijke posts herkennen op sociale media
Medische AI — ziekte-detectie, tumoren herkennen
Kwaliteitscontrole — defecten spotten in productieprocessen
Cybersecurity — aanvallen detecteren in netwerkverkeer

Tools zoals scikit-learn (Python), Azure ML, Google Vertex AI en andere ML-platforms tonen de F1 Score standaard in hun evaluatie-dashboards. Ook in onderzoekspapers en benchmarks zie je deze metric constant terug — het is de standaardmaat om modellen eerlijk te vergelijken.

Let op de context

De F1 Score heeft één belangrijke aanname: precisie en recall zijn even belangrijk. Maar dat klopt niet altijd. Bij het detecteren van zeldzame ziektes wil je misschien liever héél hoge recall (alles vinden) en accepteer je meer vals alarm. Bij spam is het andersom: liever één spam-mail missen dan per ongeluk een belangrijke mail blokkeren.

In zulke gevallen kijk je vaak naar een variant: de F-beta score, waarbij je zelf kunt instellen welke van de twee zwaarder moet wegen. Maar de standaard F1 Score blijft het uitgangspunt voor de meeste toepassingen.

Waar let je op bij jouw AI-project?

Als je zelf met AI-modellen werkt of resultaten beoordeelt van een leverancier: vraag altijd naar de F1 Score (of precisie én recall apart). Een hoge 'accuracy' alleen kan misleidend zijn, vooral als je dataset scheef is — bijvoorbeeld 95% normale gevallen en 5% afwijkingen. Dan kan een model dat alles als 'normaal' classificeert al 95% accuracy halen zonder iets zinnigs te doen.

De F1 Score dwingt je en je leverancier om eerlijk te kijken: doet het model z'n werk echt goed, of speelt het vals?