Direct naar inhoud
Alle termenLarge Language Models & NLP

Wat is BLEU?

Een metriek die meet hoe goed een AI-vertaling lijkt op een menselijke vertaling, door te tellen hoeveel woordgroepjes overeenkomen.

Wat is BLEU

Wat is BLEU eigenlijk?

BLEU staat voor Bilingual Evaluation Understudy — een tongbreker die je gelukkig nooit hoeft te onthouden. Het is een score die aangeeft hoe goed een automatische vertaling is, door te vergelijken met één of meer menselijke vertalingen van dezelfde tekst.

Stel je voor: je vraagt vijf mensen om dezelfde Franse zin naar het Nederlands te vertalen. Die vijf vertalingen zijn waarschijnlijk niet identiek, maar ze hebben veel woordjes en zinsdelen gemeen. Nu laat je een AI dezelfde zin vertalen. BLEU kijkt dan: hoeveel woordgroepjes uit de AI-vertaling komen ook voor in die vijf menselijke vertalingen? Hoe meer overlap, hoe hoger de score.

De score loopt van 0 tot 100 (eigenlijk 0 tot 1, maar vaak vermenigvuldigd met 100). Een score van 60 of hoger betekent meestal dat de vertaling behoorlijk goed is — vergelijkbaar met wat een mens zou schrijven.

Hoe werkt het?

BLEU telt niet alleen losse woorden, maar vooral combinaties van woorden — van twee-woord-groepjes tot vier-woord-groepjes. Dat heet "n-grams" in jargon, maar je kunt het zien als bouwsteentjes van betekenis.

Voorbeeld: de zin "de kat zit op de mat" heeft groepjes als "de kat", "kat zit", "zit op", enzovoort. Als de AI-vertaling veel van dezelfde groepjes gebruikt als de menselijke referentie, krijgt het punten.

Daar zit ook meteen de beperking: BLEU kijkt vooral naar letterlijke overeenkomsten. Als de AI andere woorden gebruikt die exact hetzelfde betekenen ("stoel" versus "zetel"), telt dat niet mee — ook al is de vertaling perfect. BLEU meet dus eigenlijk gelijkenis, niet per se kwaliteit.

Waar kom je het tegen?

BLEU werd in 2002 geïntroduceerd door onderzoekers van IBM (Papineni et al., "BLEU: a Method for Automatic Evaluation of Machine Translation") en is sindsdien de standaard geworden in vertaalonderzoek. Je ziet het in:

  • Wetenschappelijke papers over vertalingsmodellen — elk nieuw systeem rapporteert een BLEU-score om aan te tonen dat het beter presteert dan eerdere modellen

  • Google Translate, DeepL, Microsoft Translator — deze diensten gebruiken BLEU intern om nieuwe modelversies te testen

  • Training van grote taalmodellen — wanneer GPT, Claude of LLaMA op vertalingen worden getraind, meet je de vooruitgang vaak met BLEU

  • Ondertitelingssoftware — denk aan YouTube's automatische ondertiteling of streamingdiensten die ondertitels genereren

BLEU wordt ook gebruikt voor andere taken dan vertalen, bijvoorbeeld om te meten hoe goed een chatbot antwoorden genereert of hoe accuraat een AI samenvattingen schrijft — overal waar je een gegenereerde tekst wilt vergelijken met voorbeeldteksten.

Waarom is dit belangrijk voor jou?

Als je met AI-vertaling werkt — bijvoorbeeld productbeschrijvingen voor je webshop of klantenservice-mails — helpt het om te weten dat een "BLEU-score van 55" betekent dat de vertaling ongeveer zo goed is als een menselijke eerste versie, maar waarschijnlijk nog redactie nodig heeft. Een score boven de 70 is vaak productie-klaar.

BLEU is niet perfect: het mist nuance, stijl en context. Een vertaling kan grammaticaal perfect zijn maar toch onnatuurlijk klinken, en BLEU ziet dat verschil niet altijd. Daarom gebruiken onderzoekers tegenwoordig vaak meerdere metrieken naast elkaar: ROUGE voor samenvattingen, METEOR voor synoniem-gevoeligheid, en steeds vaker menselijke beoordelingen.

Een praktisch voorbeeld

Stel: je test twee AI-modellen voor het vertalen van productreviews. Model A krijgt een BLEU-score van 48, model B scoort 62. Dat betekent dat model B veel vaker dezelfde woordgroepen gebruikt als menselijke vertalers — een teken dat het natuurlijker klinkt. Maar: misschien gebruikt model A creatievere synoniemen die BLEU niet oppikt. Daarom is het slim om naast BLEU ook handmatig een steekproef te lezen.

Als je zelf met vertaal-API's werkt, vraag dan bij de leverancier naar de BLEU-scores van hun modellen — dat geeft je een eerste indruk van de verwachte kwaliteit, al moet je het altijd aanvullen met eigen testen in je specifieke domein (juridisch, medisch, marketing).

FAQ

Veelgestelde vragen over BLEU

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is BLEU?

Een metriek die meet hoe goed een AI-vertaling lijkt op een menselijke vertaling, door te tellen hoeveel woordgroepjes overeenkomen.

Waarom is BLEU belangrijk?

BLEU staat voor Bilingual Evaluation Understudy — een tongbreker die je gelukkig nooit hoeft te onthouden. Het is een score die aangeeft hoe goed een automatische vertaling is, door te vergelijken met één of meer menselijke vertalingen van dezelfde tekst.

Hoe wordt BLEU toegepast?

Stel je voor: je vraagt vijf mensen om dezelfde Franse zin naar het Nederlands te vertalen. Die vijf vertalingen zijn waarschijnlijk niet identiek, maar ze hebben veel woordjes en zinsdelen gemeen. Nu laat je een AI dezelfde zin vertalen. BLEU kijkt dan: hoeveel woordgroepjes uit de AI-vertaling komen ook voor in die vijf menselijke vertalingen? Hoe meer overlap, hoe hoger de score.

Deel: