Direct naar inhoud
Alle termenLarge Language Models & NLP

Wat is Subword?

Een stukje van een woord dat een AI-model als bouwsteen gebruikt — zo kan het ook nieuwe of zeldzame woorden begrijpen door ze op te delen in herkenbare delen.

Wat is Subword

Waarom AI woorden in stukjes knipt

Stel je voor dat je een nieuw woord tegenkomt: "onvindbaar". Zelfs als je het nog nooit hebt gezien, snap je het waarschijnlijk wel — het bestaat uit bekende stukjes: "on-", "vind" en "-baar". Precies zo werken subwords in AI: in plaats van elk mogelijk woord uit je hoofd te leren, knipt een taalmodel woorden op in herkenbare bouwsteentjes.

Een subword is dus een klein stukje tekst — soms een heel woord, soms een lettergreep, soms zelfs maar een paar letters. Door woorden zo op te delen, kan een AI ook omgaan met woorden die niet in z'n trainingsdata stonden. Het woord "AI-specialist" kan bijvoorbeeld worden opgesplitst in "AI", "-", "special" en "ist" — allemaal stukjes die het model wél kent.

Hoe werkt het eigenlijk?

Voordat een AI-model een tekst leest, gaat er een tokenizer aan de slag. Dat is een soort automatische woordenknipper die besluit waar de snedes komen. Die keuze is niet willekeurig: tijdens de voorbereiding analyseert de tokenizer gigantische hoeveelheden tekst en ontdekt welke lettercombinaties vaak voorkomen.

Veelvoorkomende woorden zoals "het" of "is" blijven meestal heel. Maar langere of zeldzamere woorden worden opgedeeld. "Kenniscentrum" wordt misschien "Kennis", "cent", "rum". En een heel zeldzaam woord zoals "kwantumverstrengeling" wordt in nóg kleinere stukjes geknipt.

De belangrijkste voordelen:

  • Efficiëntie: een model hoeft geen miljoen losse woorden te onthouden, maar kan met pakweg 50.000 subwords bijna alle taal beschrijven

  • Flexibiliteit: nieuwe woorden, typefouten of samenstellingen zijn geen probleem — het model herkent de onderdelen

  • Meertaligheid: veel subwords werken in meerdere talen, vooral bij verwante talen of internationale termen

Een voorbeeld uit de praktijk

Neem het Engelse woord "unhappiness". Een traditioneel systeem zou dit als één ondeelbaar woord zien. Een subword-systeem knipt het in stukjes: "un", "happi", "ness". Het model leert zo dat "un-" vaak iets ontkennings betekent, "happi" met emotie te maken heeft, en "-ness" een zelfstandig naamwoord maakt.

Daarom kan datzelfde model ook "unfriendliness" begrijpen, zelfs als het dat woord nooit letterlijk heeft gezien: het herkent de bouwstenen "un-", "friend", "li" en "-ness" uit andere contexten.

In het Nederlands werkt het net zo. "Onbegrijpelijk" wordt bijvoorbeeld "On", "begrij", "pel", "ijk" — allemaal stukjes die in allerlei andere woorden terugkomen.

Waar kom je het tegen?

Elk modern taalmodel werkt met subwords, al noemen ze het soms anders:

Als je wel eens hebt gezien dat een AI-model moeite heeft met bepaalde combinaties of "rare" woorden vreemd spelt, dan zie je de keerzijde van subwords: hoe zeldzamer een woord, hoe meer stukjes, en hoe lastiger het voor het model om de precieze betekenis te pakken.

Waarom dit voor jou belangrijk is

Begrijpen hoe subwords werken helpt je beter te snappen waarom AI-modellen soms vreemde dingen doen. Als een model een technische term niet goed oppikt, kan het helpen om die term anders te formuleren of uit te schrijven. En als je zelf AI-toepassingen bouwt, is het slim om te weten dat je vocabulaire-grootte, snelheid en nauwkeurigheid allemaal worden beïnvloed door hoe je tekst in stukjes knipt.

In de praktijk merk je het verschil vooral bij gespecialiseerde domeinen: medische termen, programmeertaal, of bijvoorbeeld Nederlandse samenstellingen. Hoe beter het subword-systeem is afgestemd op jouw taalgebruik, hoe natuurlijker de AI reageert.

FAQ

Veelgestelde vragen over Subword

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Subword?

Een stukje van een woord dat een AI-model als bouwsteen gebruikt — zo kan het ook nieuwe of zeldzame woorden begrijpen door ze op te delen in herkenbare delen.

Waarom is Subword belangrijk?

Stel je voor dat je een nieuw woord tegenkomt: "onvindbaar". Zelfs als je het nog nooit hebt gezien, snap je het waarschijnlijk wel — het bestaat uit bekende stukjes: "on-", "vind" en "-baar". Precies zo werken subwords in AI: in plaats van elk mogelijk woord uit je hoofd te leren, knipt een taalmodel woorden op in herkenbare bouwsteentjes.

Hoe wordt Subword toegepast?

Een subword is dus een klein stukje tekst — soms een heel woord, soms een lettergreep, soms zelfs maar een paar letters. Door woorden zo op te delen, kan een AI ook omgaan met woorden die niet in z'n trainingsdata stonden. Het woord "AI-specialist" kan bijvoorbeeld worden opgesplitst in "AI", "-", "special" en "ist" — allemaal stukjes die het model wél kent.

Deel: