Wat is ROUGE?
Een methode om automatisch te meten hoe goed een AI-gegenereerde samenvatting lijkt op een door mensen geschreven samenvatting, door te tellen hoeveel woorden en zinnen overeenkomen.

Wat is ROUGE eigenlijk?
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) is een rekenmethode waarmee je automatisch kunt checken hoe goed een AI-tekst lijkt op een referentietekst. Je kunt het zien als een soort vergelijkingstool die telt hoeveel woorden, woordgroepen en zinsdelen matchen.
Stel je voor: je vraagt vijf collega's om hetzelfde lange rapport samen te vatten in drie zinnen. Vervolgens vraag je een AI-model om datzelfde te doen. ROUGE vergelijkt de AI-samenvatting met die vijf menselijke samenvattingen en berekent een score: hoeveel woorden en zinnen komen overeen? Hoe hoger de overlap, hoe hoger de ROUGE-score.
Hoe werkt het eigenlijk?
ROUGE telt simpelweg overeenkomsten. Er zijn verschillende varianten:
ROUGE-N kijkt naar losse woorden of woordgroepen (n-grammen). ROUGE-1 telt losse woorden, ROUGE-2 telt woordparen, enzovoort.
ROUGE-L meet de langste opeenvolgende reeks woorden die in beide teksten voorkomt — een soort 'langste gemeenschappelijke zin'.
ROUGE-S kijkt naar woordparen die niet per se naast elkaar hoeven te staan, maar wel in dezelfde volgorde voorkomen.
De score is een getal tussen 0 en 1 (soms als percentage weergegeven). Een score van 0,6 betekent dat 60% van de woorden of zinsdelen uit de referentie ook in de AI-tekst terugkomt.
Waarom zou jij hier iets aan hebben?
ROUGE wordt vooral gebruikt om samenvattingsmodellen te beoordelen. Denk aan nieuwsartikelen die automatisch worden ingekort, klantenreviews die in één regel worden samengevat, of juridische documenten die worden verkort tot hoofdpunten.
Het voordeel: ROUGE is snel, objectief en schaalbaar. Je hoeft niet voor elke samenvatting een mens in te zetten om te controleren of de output klopt. Dat maakt het ideaal voor ontwikkelaars die honderden varianten van een model willen testen.
Maar let op: ROUGE meet alleen overlap, niet betekenis. Een AI kan een hoge ROUGE-score halen door simpelweg dezelfde woorden over te nemen, terwijl de samenvatting inhoudelijk niets zegt. Of andersom: een perfecte samenvatting met andere bewoordingen kan juist een lage score krijgen. ROUGE is dus een nuttige indicatie, maar geen waterdicht kwaliteitsoordeel.
Een voorbeeld uit de praktijk
Stel: een originele zin luidt "Het bedrijf boekte vorig jaar recordwinst dankzij sterke groei in Azië."
Referentie-samenvatting: "Recordwinst door groei in Azië."
AI-samenvatting A: "Het bedrijf groeide sterk in Azië." AI-samenvatting B: "Recordwinst door Aziatische expansie."
ROUGE-1 geeft A mogelijk een lagere score (minder exacte woorden), terwijl B hoger scoort omdat "recordwinst" en "Azië" letterlijk terugkomen. Toch zeggen beide samenvattingen ongeveer hetzelfde — en dat nuanceverschil vangt ROUGE niet altijd.
Waar kom je het tegen?
ROUGE wordt gebruikt bij het trainen en evalueren van samenvattingsmodellen. Je ziet het in:
Onderzoekspapers over NLP en tekstgeneratie — ROUGE is een standaard benchmark.
Modellen voor nieuwssamenvatting, zoals die achter Google News of nieuwsapps die automatisch highlights genereren.
Klantenservicetools die lange ticketgeschiedenissen samenvatten voor medewerkers.
Juridische en medische AI-systemen die rapporten verkorten tot hoofdlijnen.
Daarnaast gebruiken bedrijven ROUGE intern om te monitoren of updates aan hun AI-modellen de kwaliteit verbeteren of juist verslechteren.
Wat kun je ermee?
Als je zelf een samenvattingsmodel bouwt of test, is ROUGE een handige eerste check. Het vertelt je snel of je model in de buurt komt van wat mensen zouden schrijven. Combineer het altijd met menselijke beoordeling: laat een paar echte gebruikers je samenvattingen lezen en vraag of ze kloppen. ROUGE is een thermometer, geen diagnose — het meet iets, maar je moet zelf interpreteren wat het betekent.
Wil je dieper: kijk naar alternatieven zoals BERTScore (meet betekenisgelijkenis) of BLEU (gebruikt bij vertalingen). Elke metric heeft z'n sterke en zwakke kanten, en de beste aanpak is vaak een combinatie.
Veelgestelde vragen over ROUGE
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is ROUGE?
Een methode om automatisch te meten hoe goed een AI-gegenereerde samenvatting lijkt op een door mensen geschreven samenvatting, door te tellen hoeveel woorden en zinnen overeenkomen.
Waarom is ROUGE belangrijk?
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) is een rekenmethode waarmee je automatisch kunt checken hoe goed een AI-tekst lijkt op een referentietekst. Je kunt het zien als een soort vergelijkingstool die telt hoeveel woorden, woordgroepen en zinsdelen matchen.
Hoe wordt ROUGE toegepast?
Stel je voor: je vraagt vijf collega's om hetzelfde lange rapport samen te vatten in drie zinnen. Vervolgens vraag je een AI-model om datzelfde te doen. ROUGE vergelijkt de AI-samenvatting met die vijf menselijke samenvattingen en berekent een score: hoeveel woorden en zinnen komen overeen? Hoe hoger de overlap, hoe hoger de ROUGE-score.