Wat is Bag of Words?
Een methode om tekst om te zetten naar getallen door simpelweg te tellen welke woorden er voorkomen, zonder naar de volgorde te kijken — als een boodschappenlijstje in plaats van een verhaal.

Wat is Bag of Words eigenlijk?
Stel je voor dat je een verhaal hebt en je gooit alle woorden in een zak. Je schudt even flink, waardoor de volgorde compleet verdwijnt. Vervolgens tel je: hoeveel keer komt "hond" voor? Hoeveel keer "kat"? Dat is precies wat Bag of Words doet met tekst.
Het is een van de oudste en simpelste manieren om computers te leren werken met taal. In plaats van te begrijpen wat zinnen betekenen of hoe woorden op elkaar volgen, kijkt deze methode puur naar: welke woorden komen voor en hoe vaak? De volgorde maakt niet uit — "de hond bijt de man" en "de man bijt de hond" leveren exact dezelfde uitkomst op.
Hoe werkt het in de praktijk?
Stel, je hebt twee korte zinnen:
"Ik houd van pizza"
"Pizza is lekker"
Bag of Words maakt er een soort scorelijst van:
Ik: 1
houd: 1
van: 1
pizza: 2 (komt in beide zinnen voor)
is: 1
lekker: 1
Deze getallen vormen een vector — een rijtje cijfers dat de computer kan verwerken. Elk document krijgt zo zijn eigen "vingerafdruk" van woordfrequenties. Computers kunnen deze vingerafdrukken vergelijken: documenten met veel dezelfde woorden lijken op elkaar.
Waarom is dit handig (en wat zijn de beperkingen)?
Bag of Words is snel en eenvoudig te bouwen. Je hebt geen ingewikkelde algoritmes nodig — gewoon tellen. Daarom wordt het nog steeds gebruikt voor:
Spamfilters — telt woorden als "gratis", "winnen", "viagra"
Documentclassificatie — sorteert nieuwsartikelen op onderwerp
Zoekfuncties — matcht je zoekopdracht met documenten die dezelfde woorden bevatten
Sentimentanalyse (basis) — telt positieve vs. negatieve woorden
Maar er zit een groot nadeel aan: alle context verdwijnt. "Niet goed" en "goed" bevatten allebei het woord "goed", maar betekenen het tegenovergestelde. Ironie, sarcasme, woordvolgorde — Bag of Words vangt dat allemaal niet. Het ziet wel de ingrediënten, maar niet het recept.
Waar kom je het tegen?
Bag of Words vormde jarenlang de basis van natuurlijke taalverwerking. Tegenwoordig zijn er veel krachtigere methodes (zoals word embeddings en transformers), maar je vindt Bag of Words nog steeds in:
Eenvoudige tekstanalyse-tools en spreadsheet-plugins
Scikit-learn (Python machine learning bibliotheek) — heeft een ingebouwde CountVectorizer
Spam-detectiesystemen van e-mailproviders (als eerste filter)
Oudere chatbots en keywordgestuurde systemen
Educatieve AI-cursussen als startpunt om te leren hoe computers tekst "lezen"
Moderne taalmodellen als ChatGPT gebruiken Bag of Words niet meer — die begrijpen context en volgorde veel beter. Maar als je zelf een simpel tekstanalyse-projectje begint, is Bag of Words vaak stap één: het laat je zien dat tekst gewoon getallen kan worden.
Wat kun je er nu mee?
Als je begrijpt hoe Bag of Words werkt, snap je meteen waarom moderne AI zo veel slimmer is — én waar die simpelheid soms juist handig blijft. Wil je zelf experimenteren? Open een spreadsheet, plak een paar e-mails of tweets in kolommen, en tel handmatig hoe vaak bepaalde woorden voorkomen. Je hebt dan je eigen Bag of Words-analyse gemaakt. Voor serieuzer werk: bekijk de CountVectorizer in scikit-learn (gratis Python-bibliotheek). Zo proef je hoe tekstanalyse begon — en waarom we nu verder zijn.
Veelgestelde vragen over Bag of Words
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Bag of Words?
Een methode om tekst om te zetten naar getallen door simpelweg te tellen welke woorden er voorkomen, zonder naar de volgorde te kijken — als een boodschappenlijstje in plaats van een verhaal.
Waarom is Bag of Words belangrijk?
Stel je voor dat je een verhaal hebt en je gooit alle woorden in een zak. Je schudt even flink, waardoor de volgorde compleet verdwijnt. Vervolgens tel je: hoeveel keer komt "hond" voor? Hoeveel keer "kat"? Dat is precies wat Bag of Words doet met tekst.
Hoe wordt Bag of Words toegepast?
Het is een van de oudste en simpelste manieren om computers te leren werken met taal. In plaats van te begrijpen wat zinnen betekenen of hoe woorden op elkaar volgen, kijkt deze methode puur naar: welke woorden komen voor en hoe vaak? De volgorde maakt niet uit — "de hond bijt de man" en "de man bijt de hond" leveren exact dezelfde uitkomst op.