Alle termenLarge Language Models & NLP

Wat is FastText?

Een manier om woorden om te zetten in getallen waarbij ook stukjes van woorden (zoals 'loop' in 'hardloper') worden meegenomen, waardoor zelfs nieuwe of verkeerd gespelde woorden begrepen kunnen worden.

Wat is FastText eigenlijk?

Stel je voor: je leert een computer woorden begrijpen door ze om te zetten in getallen. Traditionele methodes kijken alleen naar hele woorden — 'hardloper' is één ding, 'loper' is iets anders. FastText doet het slimmer: het kijkt ook naar de bouwstenen binnen woorden. Net zoals jij 'hardloper' begrijpt omdat je 'hard' en 'loper' herkent, leert FastText patronen uit woorddelen.

Dit maakt het bijzonder handig voor talen met lange samengestelde woorden (Duits: 'Donaudampfschifffahrtsgesellschaft') of voor situaties waar je met typfouten, nieuwe woorden of zeldzame varianten te maken hebt. Waar andere systemen bij 'hardloopster' misschien vastlopen omdat ze dat woord nog nooit zagen, herkent FastText de delen 'hardloop' en 'ster' en kan het toch een redelijke gok doen.

Hoe werkt het eigenlijk?

FastText splitst elk woord op in zogenaamde 'character n-grams' — dat zijn gewoon overlappende stukjes letters. Het woord 'kat' wordt bijvoorbeeld:

<ka (begin van het woord)
kat
at> (einde van het woord)
En het hele woord <kat>

Al deze stukjes krijgen hun eigen getallenreeks (een 'vector'). Wanneer het systeem het woord 'kat' tegenkomt, telt het alle vectoren van die stukjes bij elkaar op. Dat gezamenlijke resultaat is de betekenis van 'kat' in getallenvorm.

Het slimme: als je later 'katten' tegenkomt, delen beide woorden veel stukjes (<ka, kat). Hierdoor snapt het systeem automatisch dat deze woorden verwant zijn — zelfs als 'katten' nooit in de trainingsdata zat.

Een voorbeeld uit de praktijk

Stel: je bouwt een klantenservice-chatbot voor een webshop. Klanten typen snel, maken typfouten ('bestelign' in plaats van 'besteling') en gebruiken woorden die jouw systeem nog nooit zag ('retourregeling', 'bezorgmoment').

Met FastText herkent de chatbot alsnog de kern:

'bestelign' lijkt op 'bestelling' door gedeelde stukjes
'retourregeling' deelt onderdelen met 'retour' en 'regeling'
'bezorgmoment' combineert 'bezorg' en 'moment'

Zo blijft je bot bruikbaar, ook wanneer klanten creatief of slordig typen — iets wat in de praktijk constant gebeurt.

Waar kom je het tegen?

FastText werd ontwikkeld door Facebook AI Research (nu Meta) en is open source. Je vindt het terug in:

Taalherkenningstoepassingen — snel detecteren in welke taal een tekst geschreven is, zelfs bij korte zinnen
Tekstclassificatie — spam-detectie, sentiment-analyse, nieuwscategorisering
Zoekfuncties — vooral in systemen die met veel verschillende talen of typfouten om moeten kunnen
Embedding-lagen — als basis voor grotere NLP-pipelines

De officiële bibliotheek vind je op fasttext.cc. Er zijn ook voor-getrainde modellen beschikbaar voor meer dan 150 talen.

Waarom zou jij hier iets aan hebben?

Als je tekst moet verwerken in een taal met veel samenstellingen (Nederlands, Duits), met beperkte trainingsdata werkt, of te maken hebt met 'rommelige' input (social media, klantenreviews), dan biedt FastText een robuustere basis dan methodes die alleen hele woorden kennen.

Het is ook verrassend snel te trainen — vandaar de naam. Waar complexere modellen uren of dagen nodig hebben, kun je met FastText in minuten een werkend model hebben. Dat maakt het interessant voor experimenten en situaties waar je snel wilt itereren.

Wil je ermee aan de slag? Download de bibliotheek, pak een dataset in jouw domein (klantenreviews, support-tickets, nieuwsartikelen), en train een eerste model. Je zult merken dat het verrassend goed omgaat met woorden die het nog nooit eerder zag.