Wat is Tokenization?
De manier waarop AI-taalmodellen tekst opdelen in kleine stukjes (tokens) die ze kunnen begrijpen — vergelijkbaar met hoe jij woorden in lettergrepen opknipt om ze te leren uitspreken.

Wat is tokenization eigenlijk?
Stel je voor dat je een peuter leert lezen. Die kijkt niet naar hele zinnen, maar eerst naar losse letters, dan naar woorddelen zoals "au-to" of "fie-ts". Tokenization doet iets vergelijkbaars voor AI: het hakt tekst op in kleine stukjes die een taalmodel kan verwerken.
Elk stukje — een token — kan een heel woord zijn ("huis"), een stukje woord ("waar" + "schijn" + "lijk"), of zelfs een leesteken. Voor een AI-model is elke token een soort bouwsteen. Het model leert patronen tussen die bouwstenen, niet tussen letters of hele paragrafen. Zonder tokenization zou een model geen idee hebben waar het ene woord ophoudt en het andere begint.
Waarom in stukjes en niet in hele woorden?
Als je alleen complete woorden zou gebruiken, krijg je enorme woordenlijsten. Elke vervoegde vorm, elk samengesteld woord, elk tikfoutje zou een apart item zijn. Dat wordt onwerkbaar — de lijst zou miljoenen woorden lang worden.
Door tekst op te knippen in kleinere eenheden, houd je de lijst beheersbaar. Veelgebruikte woorden zoals "de" of "een" blijven heel. Langere of zeldzamere woorden worden opgesplitst. Het Engelse woord "unbelievable" wordt bijvoorbeeld vaak drie tokens: "un" + "believ" + "able". Hierdoor hoeft het model niet elk mogelijk woord uit het hoofd te leren — het herkent herbruikbare stukjes.
Een voorbeeld uit de praktijk
Probeer maar eens een zin als "Kenniscentrum.ai" in een tokenizer te stoppen (OpenAI heeft er een op hun website). Je ziet dat het wordt opgesplitst in losse delen: misschien "Kenn", "is", "centrum", ".", "ai". Elk stukje krijgt een nummer. Die nummers zijn wat het model echt ziet — jouw tekst wordt vertaald naar een reeks getallen.
Wanneer je ChatGPT een vraag stelt, gebeurt dit achter de schermen razendsnel: jouw zin wordt getokeniseerd, het model verwerkt die tokens, en genereert nieuwe tokens die weer worden omgezet naar leesbare tekst. Alle kosten en limieten van AI-modellen (zoals "deze chat is 8.000 tokens") zijn gebaseerd op dit principe.
Waar kom je het tegen?
Tokenization gebeurt bij elk taalmodel dat je gebruikt:
ChatGPT, Claude, Gemini, Copilot — elk model gebruikt een eigen tokenizer die bepaalt hoe tekst wordt opgeknipt
API-prijzen — je betaalt per token, niet per woord (daarom zie je aanbieders rekenen in "$X per 1 miljoen tokens")
Context window — als een model "128.000 tokens context" heeft, betekent dat zo'n 75.000-100.000 woorden, afhankelijk van de taal en complexiteit
Meertalige modellen — tokenizers moeten omgaan met alfabetten (Latijns, Cyrillisch, Chinees) en tekens die verschillend lang zijn
Waarom maakt het verschil voor jou?
Tokenization bepaalt hoeveel je betaalt (meer tokens = hogere kosten), hoe lang je prompts mogen zijn, en soms zelfs hoe goed een model werkt. Sommige modellen zijn efficiënter met Nederlands dan andere, omdat hun tokenizer de taal slimmer opknipt. Een woord als "gezelligheid" kan in het ene model 1 token zijn, in het andere 4 — dat stapelt op.
Als je veel met AI werkt, loont het om bewust te zijn van tokens. Houd prompts compact, vermijd onnodige herhaling, en besef dat een kort Nederlands woord niet per se één token is. Zo haal je meer uit je budget en voorkom je dat je tegen limieten aanloopt.
Veelgestelde vragen over Tokenization
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Tokenization?
De manier waarop AI-taalmodellen tekst opdelen in kleine stukjes (tokens) die ze kunnen begrijpen — vergelijkbaar met hoe jij woorden in lettergrepen opknipt om ze te leren uitspreken.
Waarom is Tokenization belangrijk?
Stel je voor dat je een peuter leert lezen. Die kijkt niet naar hele zinnen, maar eerst naar losse letters, dan naar woorddelen zoals "au-to" of "fie-ts". Tokenization doet iets vergelijkbaars voor AI: het hakt tekst op in kleine stukjes die een taalmodel kan verwerken.
Hoe wordt Tokenization toegepast?
Elk stukje — een token — kan een heel woord zijn ("huis"), een stukje woord ("waar" + "schijn" + "lijk"), of zelfs een leesteken. Voor een AI-model is elke token een soort bouwsteen. Het model leert patronen tussen die bouwstenen, niet tussen letters of hele paragrafen. Zonder tokenization zou een model geen idee hebben waar het ene woord ophoudt en het andere begint.