Direct naar inhoud
Alle termenLarge Language Models & NLP

Wat is Edit Distance?

Een maat voor hoeveel aanpassingen je nodig hebt om de ene tekst in de andere om te zetten — zoals het verschil tussen 'huis' en 'muis' (één letter).

Wat is Edit Distance

Wat is dit eigenlijk?

Stel je voor dat je twee woorden hebt — 'kat' en 'rat'. Hoeveel letters moet je veranderen, toevoegen of weglaten om van het ene woord het andere te maken? In dit geval: één letter vervangen (de 'k' door een 'r'). Die tel je: dat is de edit distance. Eén stap.

Edit distance is een manier om te meten hoe verschillend twee stukken tekst zijn. Hoe meer bewerkingen je nodig hebt (letters toevoegen, weglaten, vervangen), hoe groter de afstand. Hoe kleiner het getal, hoe meer de teksten op elkaar lijken.

Dit concept is vernoemd naar de Russische wiskundige Vladimir Levenshtein, die het in 1965 bedacht. Daarom heet het ook wel Levenshtein-afstand.

Hoe werkt het in de praktijk?

AI-modellen gebruiken edit distance om teksten te vergelijken. Denk aan:

  • Spellcheckers: als je 'comuter' typt, herkent de checker dat 'computer' maar één letter verschilt (de 'p' ontbreekt). Dat is een edit distance van 1 — dus waarschijnlijk bedoelde je dat woord.

  • Zoekfuncties: typ je 'Amsterdm' in Google Maps, dan snapt de app dat je Amsterdam bedoelt. Te weinig verschil om toeval te zijn.

  • Tekstanalyse: wanneer een AI twee zinnen moet vergelijken (bijvoorbeeld om duplicaten te vinden), kan edit distance helpen inschatten of ze hetzelfde betekenen.

  • Machine translation: bij het vertalen checkt een model soms of de output té ver afwijkt van de input-structuur — een soort kwaliteitscontrole.

De berekening zelf gebeurt via een algoritme dat alle mogelijke bewerkingen afloopt. Voor korte woorden gaat dat razendsnel, voor lange teksten kost het meer rekenkracht.

Waarom is dit handig?

Edit distance is een objectieve maat. Je hoeft niet te gissen of twee teksten 'een beetje' of 'heel erg' verschillen — je telt gewoon het aantal stappen. Dat maakt het handig voor systemen die automatisch beslissingen moeten nemen, zoals:

  • Welk woord moet ik voorstellen als autocorrectie?

  • Is deze zoekopdracht een typfout of iets anders?

  • Zijn deze twee records in een database duplicaten van elkaar?

Voor AI-toepassingen die met taal werken, is edit distance een soort meetlat: het helpt het model inschatten of twee stukken tekst dicht genoeg bij elkaar liggen om als 'hetzelfde' te behandelen.

Waar kom je het tegen?

Je merkt edit distance vaak niet bewust, maar het werkt op de achtergrond in:

  • Tekstverwerkers zoals Word, Google Docs — de rode golfjes onder typfouten

  • Zoekmachines zoals Google, Bing — suggesties bij tikfouten

  • Chatbots en voiceassistants — wanneer ze een vraag niet precies herkennen maar wel 'dichtbij genoeg'

  • DNA-analyse — biologen gebruiken vergelijkbare methodes om genetische sequenties te vergelijken

  • Plagiaatdetectie — systemen die nakijken of teksten té veel op elkaar lijken

Bij AI-modellen die tekst genereren (zoals taalmodellen) wordt edit distance soms gebruikt in de evaluatiefase: hoe ver wijkt de gegenereerde tekst af van een referentie-antwoord?

Wat kun je er zelf mee?

Als je werkt met data waarin tekstduplicaten of typfouten voorkomen — bijvoorbeeld klantnamen, adressen, producttitels — dan kan edit distance helpen om opschoonwerk te automatiseren. Tools die fuzzy matching gebruiken (zoals OpenRefine of record linkage-software) leunen op dit principe.

Begrijp je hoe edit distance werkt, dan snap je ook waarom een spellchecker soms verrassende suggesties doet: het systeem kijkt puur naar het aantal stappen, niet naar betekenis. 'Huis' en 'muis' liggen dichterbij elkaar dan 'huis' en 'woning', ook al betekent dat laatste hetzelfde.

Die beperking is tegelijk de kracht: edit distance is simpel, snel, en werkt zonder dat je de betekenis van woorden hoeft te kennen. Perfect voor situaties waarin je gewoon wilt weten: hoe veel lijken deze twee teksten op elkaar?

FAQ

Veelgestelde vragen over Edit Distance

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Edit Distance?

Een maat voor hoeveel aanpassingen je nodig hebt om de ene tekst in de andere om te zetten — zoals het verschil tussen 'huis' en 'muis' (één letter).

Waarom is Edit Distance belangrijk?

Stel je voor dat je twee woorden hebt — 'kat' en 'rat'. Hoeveel letters moet je veranderen, toevoegen of weglaten om van het ene woord het andere te maken? In dit geval: één letter vervangen (de 'k' door een 'r'). Die tel je: dat is de edit distance. Eén stap.

Hoe wordt Edit Distance toegepast?

Edit distance is een manier om te meten hoe verschillend twee stukken tekst zijn. Hoe meer bewerkingen je nodig hebt (letters toevoegen, weglaten, vervangen), hoe groter de afstand. Hoe kleiner het getal, hoe meer de teksten op elkaar lijken.

Deel: