Direct naar inhoud
Alle termenLarge Language Models & NLP

Wat is WordPiece?

Een manier om tekst op te knippen in kleine betekenisvolle stukjes, zodat AI-modellen efficiënt kunnen leren van taal — ook van woorden die ze nog nooit eerder zagen.

Wat is WordPiece

Wat is WordPiece eigenlijk?

Stel je voor dat je een kind leert lezen. Je begint niet met hele zinnen, maar met losse letters en lettergrepen: "kat" bestaat uit "k-a-t", "katten" uit "kat-ten". WordPiece werkt eigenlijk hetzelfde voor taalmodellen.

WordPiece is een techniek die tekst opknipt in kleine bouwstenen — niet per letter, niet per woord, maar ergens tussenin. Het kijkt naar welke combinaties van letters vaak samen voorkomen in een taal, en maakt daar vaste "stukjes" van. Het woord "wandelen" wordt bijvoorbeeld opgedeeld in "wan" + "del" + "en". Het voordeel? Het model hoeft niet elk mogelijk woord uit het woordenboek te kennen. Als het "wan" en "del" en "en" kent, kan het ook "wandelen" begrijpen — en zelfs nieuwe samenstellingen als "doelwandelen" of "stadswandeling".

Deze methode werd ontwikkeld door onderzoekers bij Google en is vooral bekend geworden door BERT (een taalmodel uit 2018). Sindsdien gebruiken veel grote taalmodellen een vergelijkbare aanpak.

Waarom is dit handig?

Taal is enorm divers. In het Nederlands alleen al heb je ontelbare samenstellingen, vervoegingen, verkleinwoorden. Als een model voor elk mogelijk woord een apart vakje in zijn geheugen moet reserveren, wordt dat gigantisch groot en traag.

WordPiece lost dit slim op:

  • Efficiëntie: in plaats van miljoenen woorden te onthouden, werkt het model met een vaste set van pakweg 30.000 veelgebruikte stukjes

  • Flexibiliteit: komt het model een nieuw woord tegen ("coronacrisis", "chatbotgebruiker")? Geen probleem — het herkent de losse onderdelen ("corona", "crisis") en begrijpt de betekenis

  • Meertaligheid: dezelfde onderdelen kunnen in verschillende talen terugkomen, waardoor modellen makkelijker meerdere talen leren

Denk aan LEGO: je hebt niet voor elke mogelijke constructie een apart bouwpakket nodig. Met een handvol basisblokjes bouw je eindeloos veel variaties.

Hoe werkt het in de praktijk?

Als jij een zin intypt — bijvoorbeeld "Ik ga fietsen" — gebeurt dit:

  1. Het model kijkt of "fietsen" in zijn vaste lijst met stukjes staat

  2. Zo niet, dan probeert het: "fiets" + "en"

  3. Die twee stukjes kent het wél, dus die gebruikt het

  4. Elk stukje krijgt een nummer, en die nummers gaan het model in

  5. Het model rekent ermee, en produceert een antwoord

  6. Bij het terugvertalen naar leesbare tekst plakt het de stukjes weer aan elkaar

Jij merkt hier niks van — het gebeurt achter de schermen in milliseconden.

Waar kom je het tegen?

WordPiece en vergelijkbare technieken (zoals BPE of SentencePiece) zitten in vrijwel alle moderne taalmodellen:

  • BERT en varianten zoals RoBERTa, DistilBERT (gebruikt voor zoekresultaten, tekstbegrip)

  • Transformers van Hugging Face (een populaire bibliotheek voor AI-ontwikkelaars)

  • Taalhulpmiddelen in Google Translate, Gmail Smart Compose, Google Docs suggesties

  • Chatbots en assistenten die tekst moeten begrijpen en genereren

Als je ooit een automatische vertaling hebt gebruikt of een tekstsuggestie zag verschijnen, heb je indirect met deze techniek te maken gehad.

Een analogie die het helder maakt

Stel je voor dat je puzzels maakt. Je hebt twee opties:

  • Optie A: voor elke afbeelding die ooit gemaakt is, koop je een kant-en-klare puzzel (enorm duur, enorme voorraadruimte)

  • Optie B: je koopt een set universele puzzelstukjes die je voor elke afbeelding kunt hergebruiken

WordPiece kiest optie B. Het leert de meest handige "puzzelstukjes" van taal, zodat het model met een beperkte set oneindig veel woorden kan samenstellen.

Wat kun je hier nu mee?

Als je met AI-tools werkt die tekst verwerken, is het goed om te weten dat ze niet "lezen" zoals jij dat doet. Ze zien tekst als een reeks herkenbare bouwstenen. Dat verklaart soms waarlijk gedrag:

  • Waarom een model moeite heeft met hele rare samenstellingen of typfouten (de stukjes kloppen niet meer)

  • Waarom sommige modellen beter zijn in bepaalde talen (ze zijn getraind met stukjes uit die taal)

  • Waarom "tokens" (de rekeneenheid van veel AI-diensten) niet precies overeenkomen met woorden — het zijn juist deze stukjes

Begrijp je WordPiece, dan snap je beter hoe taalmodellen "denken" — en kun je effectiever met ze werken.

FAQ

Veelgestelde vragen over WordPiece

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is WordPiece?

Een manier om tekst op te knippen in kleine betekenisvolle stukjes, zodat AI-modellen efficiënt kunnen leren van taal — ook van woorden die ze nog nooit eerder zagen.

Waarom is WordPiece belangrijk?

Stel je voor dat je een kind leert lezen. Je begint niet met hele zinnen, maar met losse letters en lettergrepen: "kat" bestaat uit "k-a-t", "katten" uit "kat-ten". WordPiece werkt eigenlijk hetzelfde voor taalmodellen.

Hoe wordt WordPiece toegepast?

WordPiece is een techniek die tekst opknipt in kleine bouwstenen — niet per letter, niet per woord, maar ergens tussenin. Het kijkt naar welke combinaties van letters vaak samen voorkomen in een taal, en maakt daar vaste "stukjes" van. Het woord "wandelen" wordt bijvoorbeeld opgedeeld in "wan" + "del" + "en". Het voordeel? Het model hoeft niet elk mogelijk woord uit het woordenboek te kennen. Als het "wan" en "del" en "en" kent, kan het ook "wandelen" begrijpen — en zelfs nieuwe samenstellingen als "doelwandelen" of "stadswandeling".

Deel: