Alle termenLarge Language Models & NLP

Wat is Document Embedding?

Een manier om hele stukken tekst (documenten, artikelen, contracten) om te zetten in getallen die een computer kan vergelijken — zo kan AI snel zoeken welke documenten bij elkaar horen of relevant zijn.

Wat is een document embedding eigenlijk?

Stel je voor dat je een enorme stapel contracten, e-mails of klantenreviews hebt. Voor jou als mens is het lastig om snel te zien welke documenten inhoudelijk bij elkaar horen. Voor een computer is dat nóg lastiger — tekst is voor een AI namelijk gewoon een rij letters zonder betekenis.

Een document embedding lost dat op. Het zet een heel document (van een paar zinnen tot tientallen pagina's) om in een reeks getallen — een soort coördinaat in een enorme denkruimte. Documenten die over hetzelfde onderwerp gaan, krijgen coördinaten die dicht bij elkaar liggen. Documenten over totaal andere dingen liggen ver uit elkaar.

Het verschil met een gewone embedding (die één woord of zin omzet) is dat een document embedding de betekenis van een hele tekst in één keer probeert te vatten — inclusief context, nuance en hoofdboodschap.

Hoe werkt het eigenlijk?

Een AI-model leest het document en analyseert welke woorden, zinnen en ideeën er in voorkomen. Het kijkt niet alleen naar losse woorden, maar ook naar hun samenhang: wat is het onderwerp, welke argumenten worden er gegeven, wat is de toon?

Al die informatie wordt samengevat in een reeks getallen — vaak honderden tegelijk. Je kunt je die getallen voorstellen als GPS-coördinaten: twee documenten over 'hypotheekaanvragen' krijgen coördinaten die dicht bij elkaar liggen, terwijl een document over 'recepten voor pastagerechten' heel ergens anders in die denkruimte terechtkomt.

Deze getallen kun je vervolgens gebruiken om snel te zoeken: "Geef me alle documenten die lijken op dit klachtenformulier" of "Welke contracten lijken het meest op deze offerte?"

Waarom zou jij hier iets aan hebben?

Slim zoeken in grote stapels documenten — Je hebt 10.000 klantenreviews en wilt alle klachten over levertijd vinden. In plaats van handmatig zoeken naar trefwoorden, zoekt het systeem naar documenten die inhoudelijk op elkaar lijken. Ook als iemand "te laat" schrijft in plaats van "vertraagde bezorging".

Vergelijkbare teksten vinden — Bij een verzekeraar komen duizenden schademeldingen binnen. Met document embeddings kun je automatisch detecteren welke claims op elkaar lijken, wat helpt bij fraudedetectie of het snel routeren naar de juiste afdeling.

Kennis ontsluiten — Een advocatenkantoor heeft een archief van oude rechtszaken. Als je een nieuwe casus hebt, kan het systeem in seconden de meest relevante oude dossiers vinden — zonder dat je precies weet welke zoektermen je moet gebruiken.

Chatbots slimmer maken — Een klantenservice-bot kan embeddings gebruiken om in een kennisbank de beste antwoorden te vinden, ook als de klant de vraag anders formuleert dan in de handleiding staat.

Waar kom je het tegen?

Document embeddings zitten in veel moderne AI-systemen die met tekst werken:

Zoeksystemen — Pinecone, Weaviate, Qdrant en Milvus zijn databases die embeddings gebruiken om snel relevante documenten te vinden
AI-assistenten — ChatGPT, Claude, Gemini en Copilot kunnen embeddings gebruiken om je eigen documenten te doorzoeken voordat ze antwoord geven
Onderzoekstools — Elicit, Semantic Scholar en Connected Papers gebruiken embeddings om wetenschappelijke papers te clusteren en aanbevelingen te doen
Bedrijfssoftware — Notion AI, Microsoft 365 Copilot en Google Workspace gebruiken embeddings om relevante documenten en notities voor je op te duikelen

Technisch gezien worden ze gemaakt door modellen zoals OpenAI's text-embedding-ada-002, Cohere Embed, of open-source alternatieven zoals Sentence-BERT.

Een voorbeeld uit de praktijk

Een recruitment-bureau krijgt honderden cv's binnen voor één vacature. In plaats van ze allemaal handmaag door te lezen, zet het systeem elke cv om in een embedding. Ook de vacaturetekst wordt een embedding. Vervolgens berekent het systeem welke cv's het dichtst bij de vacature liggen — niet alleen op basis van trefwoorden zoals "Python" of "projectmanagement", maar ook op basis van ervaring, toon en achtergrond.

Resultaat: de recruiter krijgt een shortlist van de tien meest relevante kandidaten, zonder dat er iemand door de mazen is geglipt omdat ze net andere woorden gebruikten.

Wat kun je er nu mee?

Als je veel met documenten werkt — contracten, offertes, klachten, rapporten, e-mails — dan kunnen document embeddings je helpen om die berg tekst beter te doorzoeken en organiseren. De meeste moderne AI-tools bieden deze functie inmiddels, vaak onder namen als "semantisch zoeken" of "vector search". Je hoeft geen programmeur te zijn om ermee aan de slag te gaan — veel no-code platforms ondersteunen het al. Bedenk welke stapel documenten jij het liefst sneller zou willen doorzoeken, en kijk of je tool embeddings ondersteunt. Dat kan je uren zoekwerk per week schelen.