Alle termenLarge Language Models & NLP

Wat is BERTScore?

Een meetmethode die AI-gegenereerde tekst vergelijkt met voorbeeldtekst, niet op letterlijke overeenkomst maar op betekenis — zoals nakijken of iemand de essentie snapt, niet of ze het woordelijk opzeggen.

Wat is BERTScore eigenlijk?

Stel je voor: je vraagt twee leerlingen om een verhaal samen te vatten. De een schrijft "de hond rende naar huis", de ander "het huisdier sprintte richting woning". Letterlijk anders, maar betekenistechnisch hetzelfde. BERTScore is een manier om AI-teksten te beoordelen die precies dat onderscheidt — het kijkt niet naar exacte woordkeuze, maar naar of de betekenis klopt.

Traditiónele meetmethodes zoals BLEU (vaak gebruikt voor vertalingen) tellen simpelweg hoeveel woorden exact overeenkomen. BERTScore gebruikt daarentegen een taalmodel (BERT, vandaar de naam) om woorden te begrijpen als betekenisdragers. Het herkent dat "auto" en "wagen" verwisselbaar zijn, dat "snel" en "rap" hetzelfde uitdrukken.

De score loopt van 0 tot 1, waarbij hoger beter is. Een score van 0,85 betekent: de AI-tekst drukt grotendeels dezelfde betekenis uit als de voorbeeldtekst, ook al zijn de precieze woorden anders.

Hoe werkt het achter de schermen?

BERTScore neemt twee teksten — bijvoorbeeld een door AI gegenereerde samenvatting en een door een mens geschreven referentie. Het taalmodel (meestal BERT of een variant) zet elk woord om in een "betekenisvector" — een soort coördinaat in een grote betekenisruimte. Woorden met vergelijkbare betekenis krijgen coördinaten die dicht bij elkaar liggen.

Vervolgens vergelijkt BERTScore deze vectoren:

Precision: hoeveel van wat de AI schreef, komt betekenismatig overeen met de referentie?
Recall: hoeveel van de referentie komt terug in wat de AI schreef?
F1: het gemiddelde van beide, de uiteindelijke BERTScore

Het slimme: synoniemen, omschrijvingen en parafrasen worden herkend. "De kat klom in de boom" en "het huisdier besteeg de eik" krijgen een hoge score, terwijl BLEU ze als totaal verschillend zou zien.

Waarom zou jij hier iets aan hebben?

Als je AI-systemen bouwt die tekst genereren — samenvattingen, vertalingen, antwoorden op vragen — wil je weten of de output klopt. Niet alleen letterlijk, maar ook betekenismatig. BERTScore helpt je dat objectief te meten.

Een praktijkvoorbeeld: je bouwt een chatbot voor klantenservice. Je test of de bot vragen goed beantwoordt door zijn antwoorden te vergelijken met voorbeeldantwoorden van ervaren medewerkers. BERTScore vertelt je of de bot de essentie goed overbrengt, ook als hij andere bewoordingen gebruikt dan je voorbeelden.

Het voordeel ten opzichte van oudere methodes: je hoeft niet te straffen voor creatieve woordkeuze of natuurlijke variatie. Een AI die "de bestelling is onderweg" schrijft in plaats van "je pakket is verzonden" krijgt geen lagere score, zolang de betekenis maar klopt.

Waar kom je het tegen?

BERTScore wordt vooral gebruikt in onderzoek en ontwikkeling:

Evaluatie van samenvattingssystemen — nieuwsbrieven, research papers, lange documenten
Kwaliteitscontrole van AI-vertalingen — naast BLEU, om betekenistrouw te meten
Chatbot-testing — checken of antwoorden inhoudelijk correct zijn
Academic benchmarks — papers die nieuwe taalmodellen vergelijken, gebruiken vaak BERTScore naast andere metrics

Je vinkt het zelden direct aan als gebruiker, maar het draait achter de schermen bij veel AI-tools die tekst produceren. Ontwikkelaars gebruiken het in hun testpipeline om te zien of een nieuw model beter presteert dan de vorige versie.

Libraries zoals Hugging Face's evaluate bevatten kant-en-klare BERTScore-implementaties. Ook Google's T5-modellen en samenvattingstools zijn vaak geëvalueerd met BERTScore.

Let op de nuances

BERTScore is niet perfect. Het meet betekenisovereenkomst, maar geen feitelijke correctheid — als de AI "de aarde is plat" schrijft en de referentie zegt "de aarde is rond", kan de score nog steeds hoog zijn als de zinsbouw vergelijkbaar is. Voor feitelijke checks heb je andere tools nodig.

Ook: BERTScore is afhankelijk van het onderliggende taalmodel. Een beter taalmodel geeft betrouwbaardere scores. En het werkt vooralsnog het best voor het Engels — voor andere talen zijn meertalige BERT-varianten nodig, die soms minder nauwkeurig zijn.

Wat kun je er nu mee?

Als je AI-tools bouwt of test die tekst genereren, overweeg dan BERTScore toe te voegen aan je evaluatie. Het geeft een genuanceerder beeld dan simpel woorden tellen. Combineer het met menselijke beoordeling voor de beste resultaten — automatische metrics vertellen je of iets technisch klopt, mensen vertellen je of het ook écht goed leest.

Wil je ermee experimenteren? Check de BERTScore-pagina op Hugging Face of de originele GitHub-repo. Je kunt het in een paar regels Python-code integreren in je testflow.