Alle termenLarge Language Models & NLP

Wat is TF-IDF?

Een klassieke techniek uit tekstanalyse die woorden weegt op basis van hoe uniek ze zijn: woorden die vaak in één document voorkomen maar zeldzaam zijn in andere documenten krijgen een hogere score.

Wat is TF-IDF precies?

Stel je voor dat je duizenden sollicitatiebrieven moet lezen en daar de meest relevante eruit wilt filteren voor een vacature als 'data scientist'. Woorden als 'de', 'een' en 'graag' komen in elke brief voor — die zeggen niks. Maar het woord 'algoritme' komt misschien vaak voor in één specifieke brief, terwijl het zeldzaam is in de rest. Dat maakt dat woord waardevol om die brief mee te karakteriseren.

Dat principe heet TF-IDF: Term Frequency-Inverse Document Frequency. Het is een wiskundige methode uit de jaren '70 die elk woord in een tekst een gewicht geeft. Hoe vaker een woord in één document voorkomt (TF = term frequency), en hoe zeldzamer het is in andere documenten (IDF = inverse document frequency), hoe hoger de score.

Hoe werkt het eigenlijk?

TF-IDF bestaat uit twee delen die je met elkaar vermenigvuldigt:

Term Frequency (TF): hoe vaak komt een woord voor in dit specifieke document? Als 'machine learning' vijf keer in een artikel staat, scoort het hoger dan een woord dat er maar één keer staat.
Inverse Document Frequency (IDF): hoe zeldzaam is dit woord over alle documenten heen? Als 'neuraal' in maar 3 van de 1000 documenten voorkomt, krijgt het een hoge IDF-score. Woorden als 'is' of 'hebben' komen overal voor en krijgen dus een lage IDF.

Vermenigvuldig je die twee, dan krijg je de TF-IDF-score: woorden die vaak in één tekst voorkomen én tegelijk zeldzaam zijn in de hele collectie, springen eruit.

Een voorbeeld uit de praktijk

Stel, je hebt een archief met duizend krantenartikelen en je zoekt alles over 'klimaatverandering'. Een slim zoeksysteem kijkt niet alleen naar artikelen waarin dat woord voorkomt, maar geeft ook hogere ranking aan artikelen waarin klimaat-gerelateerde termen zoals 'CO₂', 'opwarming', 'zeespiegel' opmerkelijk vaak voorkomen — want die woorden zijn typisch voor klimaatartikelen en komen niet in elk willekeurig stuk voor.

Zo filtert TF-IDF de meest relevante artikelen naar boven, zonder dat je handmatig regels hoeft te schrijven.

Waarom is het nog relevant in het AI-tijdperk?

Je zou denken: moderne AI-modellen zoals ChatGPT doen dit toch allang beter? Deels waar. Grote taalmodellen gebruiken veel geavanceerdere technieken (zoals embeddings en transformers) die betekenis écht begrijpen in plaats van alleen woorden tellen.

Maar TF-IDF is nog steeds razend populair voor:

Zoeksystemen — simpel, snel, transparant. Elasticsearch en Solr gebruiken het nog steeds als basislaag.
Documentsamenvatting — de woorden met de hoogste TF-IDF zijn vaak kernwoorden die de essentie vatten.
Feature engineering — bij machine learning-projecten gebruik je TF-IDF vaak als startpunt voordat je complexere modellen intraint.
Tekstclassificatie — spam-filters, nieuwscategorisatie, sentimentanalyse — TF-IDF is een solide basis.

Het is een beetje zoals een goede fiets: misschien niet zo fancy als een elektrische bakfiets, maar betrouwbaar, goedkoop en voor veel ritten gewoon voldoende.

Waar kom je het tegen?

Je merkt TF-IDF niet direct, maar het draait achter de schermen bij:

Zoekmachines — Google gebruikte het vroeger prominent (nu veel geavanceerder), maar interne bedrijfszoekmachines draaien er vaak nog op
Aanbevelingssystemen — Netflix of Spotify kunnen TF-IDF gebruiken om filmomschrijvingen of songteksten te vergelijken
Tekstanalyse-tools — denk aan RapidMiner, KNIME, of Python-bibliotheken zoals scikit-learn
Content management — automatische tags genereren voor blogposts, juridische documenten sorteren
Recruitmentplatforms — CV's matchen met vacatureteksten

Als je ooit in Python met TfidfVectorizer hebt gewerkt, heb je het al gebruikt.

Wat kun jij ermee?

Als je met tekst werkt — van klantenreviews tot juridische contracten — is TF-IDF een handig gereedschap om structuur te vinden in chaos. Het vraagt geen dure GPU's of maanden training. Je kunt het in een uurtje implementeren en direct inzicht krijgen in wat een document uniek maakt.

Wil je zelf aan de slag? Probeer eens in Python de scikit-learn-bibliotheek: met een paar regels code kun je TF-IDF toepassen op je eigen dataset en zien welke woorden eruit springen. Het is een klassieke techniek — maar nog altijd een van de meest praktische manieren om tekst begrijpelijk te maken voor computers.