Alle termenData, evaluatie & metrics

Wat is GLUE?

Een verzameling van negen tekstbegriptaken waarmee je kunt testen hoe goed een taalmodel Nederlands (of Engels) snapt — zoals het herkennen van dubbelzinnigheid of het trekken van logische conclusies.

Wat is GLUE eigenlijk?

GLUE staat voor General Language Understanding Evaluation — een soort rijexamen voor AI-taalmodellen. Het is een pakket van negen verschillende taken die allemaal iets anders meten: kan een model begrijpen of twee zinnen hetzelfde betekenen? Kan het inschatten of een filmrecensie positief of negatief is? Kan het logisch redeneren?

Denk aan GLUE als een standaard-testbatterij, vergelijkbaar met hoe een auto door een APK moet: alle onderdelen worden gecontroleerd, en aan het eind krijg je een totaalscore. Voor AI-modellen is dat totaalcijfer een indicatie van hoe goed ze natuurlijke taal begrijpen — niet alleen woorden herkennen, maar ook context, nuance en logica.

Waarom bestaat dit?

Vroeger publiceerde elk AI-lab z'n eigen benchmarks, en dat maakte vergelijken lastig. De ene testte op filmrecensies, de andere op juridische teksten. GLUE (gepubliceerd in 2018 door onderzoekers van universiteiten en bedrijven zoals NYU en DeepMind) bracht daar uniformiteit in: dezelfde negen taken, dezelfde datasets, dezelfde meetmethode.

Dat maakt het makkelijk om modellen objectief naast elkaar te leggen — zonder dat iemand z'n eigen voordeligste test kiest.

Welke taken zitten erin?

GLUE bevat negen datasets, elk met een eigen uitdaging:

Sentimentanalyse — is een zin positief of negatief? (Stanford Sentiment Treebank)
Parafrase-detectie — zeggen twee zinnen hetzelfde? (MRPC, QQP)
Tekstuele implicatie — volgt zin B logisch uit zin A? (MNLI, RTE, WNLI)
Semantische gelijkenis — hoe vergelijkbaar zijn twee zinnen? (STS-B)
Grammatica-acceptabiliteit — is een zin correct Engels? (CoLA)
Vraag-antwoord matching — past dit antwoord bij die vraag? (QNLI)

Elke taak levert een score op (vaak een percentage correct), en het gemiddelde vormt de GLUE-score. Hoe hoger, hoe beter het taalmodel presteert.

Hoe werkt het in de praktijk?

Als je een nieuw taalmodel traint — bijvoorbeeld een kleiner, sneller alternatief voor grote modellen — kun je het door GLUE halen om te zien waar het goed in is en waar het zwak presteert. Misschien scoort het hoog op sentimentanalyse, maar laag op logische implicatie. Dan weet je waar je nog moet verbeteren.

Voor onderzoekers is GLUE een gemeenschappelijke taal: "ons model haalt 85 op GLUE" zegt meer dan "het werkt goed". Voor bedrijven die een model willen inkopen of implementeren, biedt het een eerste objectieve graadmeter — al zegt een hoge GLUE-score niet alles over prestaties in specifieke situaties (zoals medisch of juridisch taalgebruik).

Waar kom je het tegen?

GLUE wordt vooral gebruikt in onderzoeks- en ontwikkelomgevingen:

Wetenschappelijke papers — bijna elk paper over een nieuw taalmodel vermeldt de GLUE-score
Model-leaderboards — zoals Papers with Code of Hugging Face, waar modellen gerangschikt staan op basis van hun GLUE-prestaties
Open-source libraries — Hugging Face Transformers bevat standaard GLUE-evaluatiescripts
Modelvergelijkingen — als je BERT, RoBERTa of DistilBERT vergelijkt, zie je vaak GLUE-cijfers naast elkaar

GLUE wordt minder vaak direct gebruikt in commerciële producten — daar test je meestal op je eigen data. Maar het dient als gemeenschappelijk vertrekpunt: "als een model onder de 70 scoort op GLUE, is het waarschijnlijk nog niet productierijp."

En nu?

GLUE was baanbrekend, maar moderne modellen scoren tegenwoordig zo hoog (boven de 90, soms zelfs boven menselijke prestaties) dat de test te makkelijk is geworden. Daarom is er inmiddels SuperGLUE — een moeilijkere opvolger met complexere taken.

Wil je weten hoe goed een model Nederlands begrijpt? Check of het op vergelijkbare benchmarks is getest, of doe een eigen minitest met representatieve zinnen uit jouw domein. GLUE-scores geven een richting, maar de beste test is altijd: werkt het voor jouw toepassing?

FAQ

Veelgestelde vragen over GLUE

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is GLUE?

Waarom is GLUE belangrijk?

GLUE staat voor General Language Understanding Evaluation — een soort rijexamen voor AI-taalmodellen. Het is een pakket van negen verschillende taken die allemaal iets anders meten: kan een model begrijpen of twee zinnen hetzelfde betekenen? Kan het inschatten of een filmrecensie positief of negatief is? Kan het logisch redeneren?

Hoe wordt GLUE toegepast?

Denk aan GLUE als een standaard-testbatterij, vergelijkbaar met hoe een auto door een APK moet: alle onderdelen worden gecontroleerd, en aan het eind krijg je een totaalscore. Voor AI-modellen is dat totaalcijfer een indicatie van hoe goed ze natuurlijke taal begrijpen — niet alleen woorden herkennen, maar ook context, nuance en logica.

Deel:

Laatst bijgewerkt 4 mei 2026