Direct naar inhoud
Alle termenLarge Language Models & NLP

Wat is Word Embedding?

Een manier om woorden om te zetten in getallenlijsten, zodat een AI kan berekenen welke woorden op elkaar lijken — bijvoorbeeld dat 'kat' dichter bij 'hond' ligt dan bij 'fiets'.

Wat is Word Embedding

Wat is een word embedding?

Stel je voor dat je een AI wilt leren wat woorden betekenen. Het probleem: een computer kan alleen met getallen rekenen. Een word embedding is de oplossing — het zet elk woord om in een lijst met honderden getallen. Die lijst noemen we een vector. Elk getal in die vector vat een bepaald aspect van het woord samen: is het een dier? Is het klein of groot? Is het tastbaar of abstract?

Het slimme is dat woorden met een vergelijkbare betekenis ook vergelijkbare getallenlijsten krijgen. 'Kat' en 'hond' krijgen vectoren die dicht bij elkaar liggen in die getallenruimte. 'Fiets' ligt verder weg. Hierdoor kan de AI berekenen welke woorden bij elkaar horen — zonder dat iemand haar dat per woord heeft uitgelegd.

Hoe werkt het eigenlijk?

Een word embedding ontstaat door een AI-model te laten kijken naar enorme hoeveelheden tekst. Het model merkt: als 'kat' vaak in dezelfde zinnen voorkomt als 'huisdier', 'vacht' en 'miauwen', dan horen die woorden waarschijnlijk bij hetzelfde thema. De AI leert geleidelijk aan voor elk woord een unieke getallenlijst die alle gevonden verbanden samenvat.

Denk aan het als een gigantische bibliotheek waarin je boeken rangschikt op onderwerp, schrijfstijl en leesbaarheid — allemaal tegelijk. Elk boek krijgt een unieke positie op basis van al die eigenschappen. Bij word embeddings gebeurt hetzelfde, maar dan met woorden en in honderden dimensies in plaats van drie.

Het leuke is dat je met die vectoren kunt rekenen. Het beroemde voorbeeld: als je de vector voor 'koning' neemt, daar 'man' van aftrekt en 'vrouw' bij optelt, kom je dicht bij de vector voor 'koningin'. De AI heeft zo'n verband zelf ontdekt, puur door te kijken hoe woorden in zinnen worden gebruikt.

Waarom zou jij hier iets aan hebben?

Word embeddings vormen de basis van vrijwel alle moderne taalmodellen. Zonder embeddings zou ChatGPT niet begrijpen dat 'auto' en 'voertuig' met elkaar te maken hebben, of dat 'blij' en 'gelukkig' verwant zijn. Ze maken het mogelijk dat een AI:

  • Synoniemen herkent en context begrijpt

  • Vertaalt tussen talen (want woorden met dezelfde betekenis in verschillende talen krijgen vergelijkbare vectoren)

  • Zoekresultaten slimmer maakt — je zoekt naar 'laptop', de AI weet dat 'notebook' ook relevant is

  • Teksten samenvat of vergelijkt op inhoud

Als jij een chatbot bouwt, een zoekfunctie verbetert of een sentiment-analyse maakt, zijn word embeddings het gereedschap dat de computer laat begrijpen wat woorden betekenen.

Waar kom je het tegen?

Bijna elke AI die met taal werkt, gebruikt word embeddings onder de motorkap:

  • ChatGPT, Claude, Gemini — moderne chatbots zetten je vraag eerst om in embeddings voordat ze een antwoord genereren

  • Google Zoeken — begrijpt synoniemen en verwante zoektermen dankzij embeddings

  • Vertalers (Google Translate, DeepL) — matchen woorden tussen talen op basis van hun vectorrepresentatie

  • Spam-filters — herkennen dat 'gratis geld winnen' en 'win snel cash' hetzelfde patroon volgen

  • Aanbevelingssystemen — zoals bij Netflix of Spotify, om te zoeken naar vergelijkbare content op basis van beschrijvingen

Bekende embedding-modellen die je kunt gebruiken zijn Word2Vec (de klassieker uit 2013), GloVe, FastText en de meer moderne transformer-based embeddings uit modellen zoals BERT of GPT.

Wat kun je ermee?

Als je zelf met AI aan de slag gaat, kun je embeddings gebruiken voor allerlei toepassingen. Wil je een slimme zoekfunctie bouwen in je website? Zet alle productomschrijvingen om in embeddings en zoek naar de dichtstbijzijnde match wanneer iemand iets intypt. Wil je nieuwsartikelen clusteren op onderwerp? Embeddings laten zien welke artikelen over vergelijkbare thema's gaan.

Het mooie is dat je deze techniek niet vanaf nul hoeft te bouwen. Via API's van OpenAI, Cohere of open-source bibliotheken kun je direct bestaande embedding-modellen gebruiken. Je leert je AI zo effectief 'lezen' — en dat opent de deur naar tientallen praktische toepassingen waarin taal een rol speelt.

FAQ

Veelgestelde vragen over Word Embedding

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Word Embedding?

Een manier om woorden om te zetten in getallenlijsten, zodat een AI kan berekenen welke woorden op elkaar lijken — bijvoorbeeld dat 'kat' dichter bij 'hond' ligt dan bij 'fiets'.

Waarom is Word Embedding belangrijk?

Stel je voor dat je een AI wilt leren wat woorden betekenen. Het probleem: een computer kan alleen met getallen rekenen. Een word embedding is de oplossing — het zet elk woord om in een lijst met honderden getallen. Die lijst noemen we een vector. Elk getal in die vector vat een bepaald aspect van het woord samen: is het een dier? Is het klein of groot? Is het tastbaar of abstract?

Hoe wordt Word Embedding toegepast?

Het slimme is dat woorden met een vergelijkbare betekenis ook vergelijkbare getallenlijsten krijgen. 'Kat' en 'hond' krijgen vectoren die dicht bij elkaar liggen in die getallenruimte. 'Fiets' ligt verder weg. Hierdoor kan de AI berekenen welke woorden bij elkaar horen — zonder dat iemand haar dat per woord heeft uitgelegd.

Deel: