Direct naar inhoud
Alle termenLarge Language Models & NLP

Wat is AI Vocabulary?

De verzameling van alle woordstukjes (tokens) die een AI-taalmodel kent en kan gebruiken — zoals het woordenboek dat in het model is ingebakken.

Ook bekend als: Vocabulary, vocabulary, vocabulaire

Wat is AI Vocabulary

Wat is een AI Vocabulary eigenlijk?

Stel je voor: je leert een nieuwe taal, en je krijgt een woordenboek met daarin alle woorden die je mag gebruiken. Meer woorden dan die in dat boek staan, kun je niet uitspreken — ze bestaan voor jou simpelweg niet. Zo werkt het ook bij AI-taalmodellen. Het AI Vocabulary is de complete set van alle woordstukjes (tokens) die een model kent en kan herkennen. Elk model heeft zo'n vocabulary: een vaste lijst met bijvoorbeeld 50.000 of 100.000 tokens, die tijdens de bouw van het model wordt vastgesteld.

Een token is niet altijd een heel woord. Het kan een los woord zijn (zoals "huis"), maar ook een stukje van een woord ("huis" kan opgedeeld zijn in "hu" en "is"), een leesteken, of zelfs een spatie. Het model splitst alle tekst die het ziet op in deze tokens, en die tokens moeten allemaal in het vocabulary voorkomen. Komt een nieuw, onbekend woord langs? Dan hakt het model dat op in kleinere stukjes totdat elk stukje wél in de lijst staat.

Hoe ontstaat zo'n vocabulary?

Voordat een model getraind wordt, analyseert het team achter het model enorme hoeveelheden tekst (boeken, websites, artikelen) en kijkt: welke woorden en woordstukjes komen het vaakst voor? Op basis daarvan wordt een lijst samengesteld — het vocabulary. Vaak worden veelvoorkomende woorden heel gehouden ("de", "het", "en"), terwijl zeldzamere woorden in stukjes worden gehakt. Dit heet tokenization.

Een groter vocabulary betekent dat het model meer hele woorden herkent en dus minder hoeft op te knippen. Dat kan efficiënter zijn, maar kost ook meer geheugen. Een kleiner vocabulary betekent dat woorden vaker in stukjes geknipt worden, wat juist weer meer verwerkingstijd kost. Het is een afweging.

Waarom maakt het uit voor jou?

De grootte en samenstelling van het vocabulary heeft invloed op wat een model goed kan. Een model met een Engels-gedomineerd vocabulary zal bijvoorbeeld moeite hebben met Nederlandse samenstellingen of leenwoorden uit andere talen — het moet ze opknippen in veel kleine tokens, wat de output onnauwkeuriger kan maken. Ook speelt het mee in context window (het aantal tokens dat het model in één keer kan verwerken): als je dezelfde tekst in meer tokens moet opdelen, past er minder inhoud in dat venster.

Daarom zie je steeds vaker modellen met meertalige vocabularies of vocabularies die specifiek voor bepaalde domeinen zijn geoptimaliseerd (bijvoorbeeld medische of juridische termen).

Een voorbeeld uit de praktijk

Stel, je typt "supercalifragilisticexpialidocious" in ChatGPT. Dat woord staat waarschijnlijk niet als geheel in het vocabulary. Het model knipt het dan op in kleinere stukjes: "super", "cali", "frag", "il", enzovoort — elk stukje dat wél in de lijst staat. Hetzelfde gebeurt met nieuwe merknamen, zeldzame eigennamen of vakjargon dat niet in de trainingsdata voorkwam. Hoe meer tokens er nodig zijn om iets uit te drukken, hoe meer "ruimte" het kost in de verwerking.

Waar kom je het tegen?

Elk groot taalmodel heeft een eigen vocabulary:

  • GPT-modellen (OpenAI): rond de 50.000 tot 100.000 tokens, vooral Engels-georiënteerd

  • Claude (Anthropic): vergelijkbaar, met meer aandacht voor niet-Engelse talen in recentere versies

  • Gemini (Google): meertalig vocabulary met sterkere ondersteuning voor niet-Latijnse schriften

  • LLaMA / Mistral: open-source modellen met vocabularies die vaak breder zijn afgestemd op Europese talen

In de technische documentatie van deze modellen staat vaak hoeveel tokens het vocabulary bevat en hoe de tokenization werkt. Dat is handig om te weten als je precies wilt berekenen hoeveel tokens een stuk tekst kost (want API's rekenen vaak per token).

Wat kun je hier nu mee?

Als je veel met AI-taalmodellen werkt, loont het om te weten hoe tokenization en vocabulary werken. Schrijf je prompts in een taal die het model goed kent? Dan zijn je tokens efficiënter benut. Werk je met zeldzame terminologie of niet-Westerse talen? Kijk dan naar modellen met bredere vocabularies. En wil je kosten besparen bij API-gebruik? Houd je tekst compact en vermijd onnodige herhalingen of extreem lange woorden — want elk token telt mee in je rekening én in de ruimte die het model heeft om te "denken".

FAQ

Veelgestelde vragen over AI Vocabulary

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is AI Vocabulary?

De verzameling van alle woordstukjes (tokens) die een AI-taalmodel kent en kan gebruiken — zoals het woordenboek dat in het model is ingebakken.

Waarom is AI Vocabulary belangrijk?

Stel je voor: je leert een nieuwe taal, en je krijgt een woordenboek met daarin alle woorden die je mag gebruiken. Meer woorden dan die in dat boek staan, kun je niet uitspreken — ze bestaan voor jou simpelweg niet. Zo werkt het ook bij AI-taalmodellen. Het AI Vocabulary is de complete set van alle woordstukjes (tokens) die een model kent en kan herkennen. Elk model heeft zo'n vocabulary: een vaste lijst met bijvoorbeeld 50.000 of 100.000 tokens, die tijdens de bouw van het model wordt vastgesteld.

Hoe wordt AI Vocabulary toegepast?

Een token is niet altijd een heel woord. Het kan een los woord zijn (zoals "huis"), maar ook een stukje van een woord ("huis" kan opgedeeld zijn in "hu" en "is"), een leesteken, of zelfs een spatie. Het model splitst alle tekst die het ziet op in deze tokens, en die tokens moeten allemaal in het vocabulary voorkomen. Komt een nieuw, onbekend woord langs? Dan hakt het model dat op in kleinere stukjes totdat elk stukje wél in de lijst staat.

Deel: