Wat is Word2Vec?
Een methode die woorden omzet in reeksen getallen, zodat een computer kan 'begrijpen' dat 'koning' dichter bij 'koningin' staat dan bij 'broodje'. De basis onder veel moderne AI-taalmodellen.

Wat is Word2Vec eigenlijk?
Stel je voor dat je een computer moet uitleggen wat woorden betekenen. Je kunt niet zeggen "'hond' is een huisdier dat blaft" — een computer werkt met getallen, niet met definities. Word2Vec lost dat op door elk woord om te zetten in een lijst met getallen (een vector), waarbij woorden met vergelijkbare betekenissen vergelijkbare getallen krijgen.
Denk aan een plattegrond van betekenissen: 'hond' en 'kat' liggen dicht bij elkaar, 'hond' en 'fiets' liggen ver uit elkaar. Word2Vec leert die plattegrond door miljoenen zinnen te lezen en te zien welke woorden vaak in dezelfde context voorkomen.
Het slimme: deze getallenlijsten behouden ook betekenisrelaties. Als je de vector van 'koning' neemt, er 'man' van aftrekt en er 'vrouw' bij optelt, kom je verrassend dicht bij de vector van 'koningin'. Alsof de computer abstracte verbanden heeft geleerd.
Hoe werkt het in de praktijk?
Word2Vec leest enorme hoeveelheden tekst (Wikipedia, nieuws, boeken) en let op welke woorden in dezelfde zinnen voorkomen. Woorden die vaak dezelfde buren hebben, krijgen vergelijkbare vectoren.
De methode gebruikt twee hoofdtechnieken:
Skip-gram: je geeft een woord, het model voorspelt welke woorden eromheen staan
CBOW (Continuous Bag of Words): je geeft de omringende woorden, het model voorspelt het middelste woord
Bijvoorbeeld: in de zin "De kat ligt op de mat" leert het model dat 'kat', 'ligt' en 'mat' vaak samengaan. Als het duizenden keren "de hond ligt op..." en "de kat ligt op..." ziet, begrijpt het dat 'hond' en 'kat' verwisselbaar zijn — dus vergelijkbare vectoren verdienen.
De vectoren zijn meestal 100 tot 300 getallen lang. Voor mensen betekenisloos, maar voor AI-modellen een handige manier om taal wiskundig te behandelen.
Waarom zou jij hier iets aan hebben?
Word2Vec zelf gebruik je zelden direct, maar het zit onder de motorkap van veel AI-toepassingen die jij wél gebruikt:
Zoekfuncties: Google begrijpt dat "auto kopen" en "wagen aanschaffen" over hetzelfde gaan
Vertaalsoftware: DeepL en Google Translate gebruiken vergelijkbare technieken om woordbetekenissen over talen heen te vertalen
Chatbots: klantenservice-bots snappen dat "factuur" en "rekening" hetzelfde betekenen
Aanbevelingen: "Mensen die X kochten, kochten ook Y" werkt met vergelijkbare vectorlogica
Voor bedrijven die met veel tekst werken (klantenservice, juridisch, marketing) is het interessant om te weten dat dit soort technieken bestaat. Ze maken het mogelijk om automatisch documenten te categoriseren, sentimenten te herkennen of duplicaten op te sporen — zonder dat je elk document handmatig hoeft te labelen.
Waar kom je het tegen?
Moderne AI-tools bouwen voort op dezelfde principes:
ChatGPT, Claude, Gemini: gebruiken verfijndere opvolgers van Word2Vec (zoals embeddings uit Transformers), maar het basisidee is hetzelfde
Elasticsearch en Algolia: zoekmachines met semantische zoekfuncties
Hugging Face: biedt modellen die woord-embeddings gebruiken voor allerlei NLP-taken
Microsoft Excel en Google Sheets: sommige AI-functies voor tekstanalyse steunen op vergelijkbare vectortechnieken
Word2Vec zelf (gelanceerd door Google in 2013) wordt tegenwoordig minder gebruikt — nieuwere methoden zoals BERT en GPT zijn krachtiger. Maar het principe van "woorden als getallen" blijft de ruggengraat van bijna alle moderne taaltechnologie.
Van theorie naar toepassing
Als je met AI-tools werkt die tekst analyseren, herkennen, vertalen of genereren, is de kans groot dat ergens in het systeem woorden worden omgezet in vectoren — net zoals Word2Vec dat deed. Het verklaart waarom chatbots soms begrijpen wat je bedoelt, ook al gebruik je net andere woorden. En het laat zien dat AI geen taal "leest" zoals jij, maar patronen in getallen ziet.
Wil je hier zelf mee experimenteren? Python-bibliotheken zoals Gensim en spaCy hebben kant-en-klare Word2Vec-modellen die je kunt trainen op je eigen teksten. Geen programmeur? Dan geeft deze term je in ieder geval inzicht in hoe moderne AI-tekstverwerking werkt — zodat je beter kunt inschatten wat wel en niet mogelijk is.
Veelgestelde vragen over Word2Vec
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Word2Vec?
Een methode die woorden omzet in reeksen getallen, zodat een computer kan 'begrijpen' dat 'koning' dichter bij 'koningin' staat dan bij 'broodje'. De basis onder veel moderne AI-taalmodellen.
Waarom is Word2Vec belangrijk?
Stel je voor dat je een computer moet uitleggen wat woorden betekenen. Je kunt niet zeggen "'hond' is een huisdier dat blaft" — een computer werkt met getallen, niet met definities. Word2Vec lost dat op door elk woord om te zetten in een lijst met getallen (een vector), waarbij woorden met vergelijkbare betekenissen vergelijkbare getallen krijgen.
Hoe wordt Word2Vec toegepast?
Denk aan een plattegrond van betekenissen: 'hond' en 'kat' liggen dicht bij elkaar, 'hond' en 'fiets' liggen ver uit elkaar. Word2Vec leert die plattegrond door miljoenen zinnen te lezen en te zien welke woorden vaak in dezelfde context voorkomen.