Alle termenData, evaluatie & metrics

Wat is SQuAD?

Een bekende testset met vragen over teksten, waarmee je kunt meten hoe goed een AI-model begrijpend lezen beheerst.

Wat is SQuAD eigenlijk?

SQuAD staat voor Stanford Question Answering Dataset — een verzameling van meer dan 100.000 vragen die mensen hebben bedacht bij artikelen van Wikipedia. Stel je voor: je leest een stuk tekst over de Eiffeltoren, en dan krijg je de vraag "In welk jaar werd de toren geopend?" Het antwoord staat ergens in de tekst, en een goed AI-model moet precies dat zinnetje of die paar woorden kunnen vinden.

Het idee erachter is simpel: als een AI-systeem tekst echt begrijpt, moet het ook vragen kunnen beantwoorden over wat er staat. Net zoals je op school begripstoetsen kreeg na het lezen van een verhaal.

SQuAD is in 2016 gemaakt door onderzoekers van Stanford University, en sindsdien is het een soort ijkpunt geworden. Als een bedrijf zegt "ons model scoort 90% op SQuAD", weet je: oké, dat ding kan redelijk goed begrijpend lezen.

Hoe werkt het in de praktijk?

De dataset bestaat uit context-alinea's (stukjes tekst) en bijbehorende vragen. Bij elke vraag staat het juiste antwoord — een letterlijk citaat uit de tekst. Een AI-model moet leren om in die alinea precies de juiste woorden te vinden die het antwoord vormen.

Er zijn twee versies:

SQuAD 1.1 — elke vraag heeft altijd een antwoord ergens in de tekst
SQuAD 2.0 — sommige vragen hebben geen antwoord in de tekst, het model moet dan ook kunnen zeggen "deze vraag is niet te beantwoorden op basis van deze informatie"

Die tweede versie is lastiger, want het model moet niet alleen antwoorden vinden, maar ook herkennen wanneer het iets niet weet. Dat voorkomt dat AI-systemen zomaar iets verzinnen.

Waarom zou jij hier iets aan hebben?

Als je werkt met AI-modellen die tekst moeten begrijpen — denk aan klantenservice-bots, zoekfuncties in grote documentenbestanden, of systemen die contracten analyseren — dan wil je weten hoe betrouwbaar ze zijn. SQuAD-scores geven je een indicatie: een model dat goed scoort op deze test, kan meestal ook goed met jouw eigen teksten overweg.

Het is een beetje zoals een rijbewijs: het feit dat iemand geslaagd is, betekent niet dat ze foutloos rijden, maar het geeft wel vertrouwen dat de basis op orde is.

Let wel: een hoge SQuAD-score betekent niet automatisch dat een model alles begrijpt. Het is getraind op een specifiek soort vragen en teksten. In de echte wereld kom je vaak andere uitdagingen tegen — vage vragen, impliciete informatie, humor, ironie. Maar als startpunt is het waardevol.

Waar kom je het tegen?

Je ziet SQuAD-scores vaak terugkomen in:

Technische papers en benchmarks — onderzoekers vergelijken hun nieuwe modellen met eerdere resultaten op SQuAD
Productpagina's van AI-leveranciers — bedrijven die language models aanbieden, vermelden soms hun prestaties op deze dataset
Open-source modelkaarten — bij modellen op platforms als Hugging Face staat vaak hoe ze scoren op bekende testsets, waaronder SQuAD

Daarnaast wordt de dataset zelf gebruikt om modellen te trainen. Niet alleen voor vraag-beantwoording, maar ook als algemene oefening in tekstbegrip. Het helpt modellen leren om relevante informatie uit langere teksten te filteren.

Wat kun je er zelf mee?

Als je een AI-systeem evalueert of vergelijkt voor tekstbegrip, kijk dan of er SQuAD-scores beschikbaar zijn. Het geeft je een objectief vergelijkingspunt. Wees je er wel van bewust dat dit één benchmark is — test bij voorkeur ook met je eigen data, want jouw specifieke situatie kan anders zijn dan Wikipedia-artikelen.

Daarnaast: als je zelf modellen traint of fine-tunet voor vraag-beantwoording, kun je SQuAD gebruiken als trainingsmateriaal of testset. De dataset is gratis beschikbaar en veel gebruikte AI-bibliotheken hebben er standaard ondersteuning voor.

FAQ

Veelgestelde vragen over SQuAD

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is SQuAD?

Een bekende testset met vragen over teksten, waarmee je kunt meten hoe goed een AI-model begrijpend lezen beheerst.

Waarom is SQuAD belangrijk?

Hoe wordt SQuAD toegepast?

Deel:

Laatst bijgewerkt 4 mei 2026