Wat is AI Calibration?
Hoe goed de zekerheid die een AI-model uitspreekt ('ik ben 90% zeker') daadwerkelijk klopt met de werkelijkheid. Een goed gekalibreerd model zegt niet overmoedig 'ja' of angstig 'misschien'.
Ook bekend als: Calibration, calibration, calibratie

Wat is AI Calibration eigenlijk?
Stel je voor: je vraagt een AI of een foto een hond of kat laat zien. Het model antwoordt 'hond' en voegt eraan toe: 'ik ben hier 95% zeker van'. Als het model goed gekalibreerd is, betekent dat dat van alle keren dat het '95% zeker' zegt, het ook daadwerkelijk in 95 van de 100 gevallen gelijk heeft. Klinkt logisch, maar in de praktijk gebeurt dat lang niet altijd.
AI Calibration — of gewoon calibratie — gaat over hoe goed de confidence (het zekerheidsniveau) van een model overeenkomt met de werkelijke kans dat het antwoord klopt. Een slecht gekalibreerd model kan overmoedig zijn ('99% zeker!' terwijl het maar in 60% van de gevallen klopt) of juist te voorzichtig ('50% zeker' terwijl het bijna altijd goed zit).
Dat is niet alleen een technisch dingetje: als jij als arts, bankmedewerker of autorijder beslissingen neemt op basis van zo'n confidence-score, wil je dat die score ook echt betrouwbaar is.
Hoe werkt het eigenlijk?
Als een AI-model een voorspelling doet, geeft het meestal niet alleen een antwoord ('A' of 'B'), maar ook een kans: bijvoorbeeld 0,8 (ofwel 80%). Dat getal komt uit het interne rekenwerk van het model — vaak de laatste laag van een neuraal netwerk.
Om te checken of een model goed gekalibreerd is, doe je dit:
Verzamel alle voorspellingen waar het model zei '80% zeker te zijn'
Kijk hoeveel daarvan daadwerkelijk klopten
Als dat ook rond de 80% ligt, is het model goed gekalibreerd voor die zekerheidsklasse
Doe dit voor alle zekerheidsscores (50%, 70%, 90%, etc.)
Een veelgebruikte manier om dit te visualiseren is een calibration plot: een grafiek waarin je de voorspelde zekerheid uitzet tegen de werkelijke nauwkeurigheid. Een perfect gekalibreerd model zou een diagonale lijn laten zien — wat het model zegt, komt uit.
In de praktijk zie je vaak dat moderne neurale netwerken (vooral grote taalmodellen en beeldmodellen) té zeker zijn: ze geven hoge scores, maar zitten er vaker naast dan die score suggereert. Dat heet overconfidence of overschatting.
Waarom zou jij hier iets aan hebben?
Als je AI inzet in situaties waar veel van afhangt — denk aan medische diagnostiek, kredietbeoordelingen, zelfrijdende auto's, fraudedetectie — wil je niet alleen weten wát het model denkt, maar ook hoe betrouwbaar dat oordeel is.
Een goed gekalibreerd model helpt je om:
Betere beslissingen te nemen: als het model zegt '60% zeker', weet je dat je extra moet checken. Bij '98% zeker' kun je meer vertrouwen.
Risico's inschatten: je kunt drempels instellen ('alleen automatisch goedkeuren als zekerheid > 90%') die daadwerkelijk kloppen.
Transparantie bieden: gebruikers begrijpen beter wat ze van het systeem kunnen verwachten.
In sectoren met strenge regelgeving (zoals de Europese AI Act) wordt steeds vaker gevraagd dat AI-systemen niet alleen nauwkeurig zijn, maar ook eerlijk rapporteren over hun onzekerheid.
Een voorbeeld uit de praktijk
Een ziekenhuis test een AI die huidaandoeningen op foto's identificeert. Het model is 85% accuraat — dat klinkt goed. Maar als je de calibratie checkt, zie je dat het bij 'melanoom' vaak 95% zekerheid aangeeft, terwijl het in werkelijkheid maar in 70% van die gevallen klopt.
Dat is gevaarlijk: artsen vertrouwen op die hoge score en doen minder handmatige checks. Door het model opnieuw te kalibreren (bijvoorbeeld met een techniek als temperature scaling), kun je de confidence bijstellen zodat '70% zeker' ook echt 70% betekent. Nu weten artsen wanneer ze extra alert moeten zijn.
Waar kom je het tegen?
Je ziet calibratie terug in:
Medische AI-tools die röntgenfoto's of huidfoto's beoordelen — waar betrouwbare onzekerheidsscores levensreddend kunnen zijn
Zelfrijdende auto's die inschatten of een object een voetganger of een plastic zak is
Fraudedetectie bij banken, waar je wilt weten hoe zeker het systeem is voordat je een rekening blokkeert
Taalmodellen (zoals ChatGPT, Claude, Gemini) — hoewel die vaak geen expliciete confidence geven, wordt er intern gewerkt aan betere calibratie
Spam- en contenmoderatie, waar platforms willen weten hoe zeker ze zijn dat iets schadelijk is
In de AI-wetenschap worden modellen getest op calibratie met metrics als Expected Calibration Error (ECE) — een getal dat aangeeft hoe ver de voorspelde zekerheid gemiddeld afwijkt van de werkelijkheid.
Wat kun je er nu mee?
Als je een AI-systeem bouwt of inkoopt: vraag naar de calibratie. Niet alleen 'hoe accuraat is het?', maar ook 'als het zegt 80% zeker te zijn, klopt dat dan ook?'. Test het op je eigen data — bijvoorbeeld door een calibration plot te maken.
Als je AI-output gebruikt voor beslissingen: kijk niet alleen naar het antwoord, maar ook naar de zekerheid. Een goed gekalibreerd model geeft je de eerlijke waarschuwing wanneer het twijfelt — en dat is vaak net zo waardevol als een zeker antwoord.
Veelgestelde vragen over AI Calibration
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is AI Calibration?
Hoe goed de zekerheid die een AI-model uitspreekt ('ik ben 90% zeker') daadwerkelijk klopt met de werkelijkheid. Een goed gekalibreerd model zegt niet overmoedig 'ja' of angstig 'misschien'.
Waarom is AI Calibration belangrijk?
Stel je voor: je vraagt een AI of een foto een hond of kat laat zien. Het model antwoordt 'hond' en voegt eraan toe: 'ik ben hier 95% zeker van'. Als het model goed gekalibreerd is, betekent dat dat van alle keren dat het '95% zeker' zegt, het ook daadwerkelijk in 95 van de 100 gevallen gelijk heeft. Klinkt logisch, maar in de praktijk gebeurt dat lang niet altijd.
Hoe wordt AI Calibration toegepast?
AI Calibration — of gewoon calibratie — gaat over hoe goed de confidence (het zekerheidsniveau) van een model overeenkomt met de werkelijke kans dat het antwoord klopt. Een slecht gekalibreerd model kan overmoedig zijn ('99% zeker!' terwijl het maar in 60% van de gevallen klopt) of juist te voorzichtig ('50% zeker' terwijl het bijna altijd goed zit).