Direct naar inhoud
Alle termenData, evaluatie & metrics

Wat is Jaccard Index?

Een getalletje tussen 0 en 1 dat aangeeft hoe sterk twee sets op elkaar lijken — handig om te meten of AI-tekst overeenkomt met de verwachte output.

Wat is Jaccard Index

Wat is de Jaccard Index eigenlijk?

Stel je voor dat je twee boodschappenlijstjes naast elkaar legt. De ene lijst heeft appels, brood, kaas en melk. De andere heeft brood, melk, eieren en boter. Hoeveel hebben ze gemeen? De Jaccard Index is een simpele manier om dat uit te rekenen: je kijkt naar de overlap (brood en melk) en deelt die door het totaal aantal unieke producten (appels, brood, kaas, melk, eieren, boter). In dit geval: 2 gedeeld door 6 = 0,33.

In de AI-wereld werkt het precies zo. Je vergelijkt twee verzamelingen — bijvoorbeeld de woorden die een chatbot gebruikt versus de woorden die je verwachtte, of de labels die een model aan een foto geeft versus de juiste labels. Een Jaccard Index van 1,0 betekent perfecte overlap (alle items komen overeen). Een score van 0,0 betekent dat er helemaal geen overeenkomst is.

Het grote voordeel: de Jaccard Index is simpel te snappen en werkt voor alles wat je in setjes kunt stoppen — woorden, tags, categorieën, zinsdelen. Het nadeel: de methode houdt geen rekening met hoe vaak iets voorkomt of in welke volgorde. "De kat zit op de mat" en "De mat zit op de kat" krijgen dezelfde score, omdat de woorden identiek zijn.

Waar kom je het tegen?

Bij tekstgeneratie wordt de Jaccard Index soms gebruikt om te meten of een gegenereerde samenvatting dezelfde kernwoorden bevat als een menselijke referentie. Ook in recommender systems ("welke gebruikers hebben vergelijkbare voorkeuren?") en bij duplicate detection ("zijn deze twee product-beschrijvingen in essentie hetzelfde?") kom je de maatstaf tegen.

In de praktijk zie je de Jaccard Index vaak in combinatie met andere metrics zoals BLEU of ROUGE, omdat hij alleen kijkt naar woordoverlap en niet naar betekenis of grammatica. Bij image tagging kun je ermee checken of de labels die een model voorspelt overeenkomen met de handmatige labels ("hond", "park", "zonnig" versus "hond", "buiten", "zonnig" geeft een Jaccard van 0,5).

Waarom zou jij hier iets aan hebben?

Als je met AI-systemen werkt die categorieën, tags of lijsten produceren, helpt de Jaccard Index je om snel te zien of de output in de buurt komt van wat je verwacht. Het is geen wondermiddel — een hoge score betekent niet per se dat de tekst of aanbeveling ook goed is — maar het geeft wel een eerste indicatie of je model in ieder fall de juiste ingrediënten gebruikt.

Bij interne projecten (denk aan een chatbot die FAQ-categorieën moet herkennen, of een systeem dat producten automatisch tagt) kun je de Jaccard Index gebruiken als snelle kwaliteitscheck. Omdat de berekening eenvoudig is, kun je 'm zelfs in een Excel-sheet zelf uitrekenen zonder ingewikkelde tools.

Een voorbeeld uit de praktijk

Stel, je test een AI-assistent die e-mails automatisch labelt met onderwerpen. Een e-mail krijgt van jouw medewerker de labels {"factuur", "levering", "vraag"}. De AI geeft {"factuur", "levering", "klacht"}. De overlap is 2 items (factuur en levering), het totaal aantal unieke labels is 4. Jaccard Index = 2/4 = 0,5. Dat geeft je meteen een signaal: de AI zit voor de helft goed, maar mist de nuance tussen "vraag" en "klacht". Met die feedback kun je het model bijsturen of de trainingsdata aanscherpen.

Wil je zelf aan de slag? Trek een steekproef van AI-outputs en vergelijk ze met de gewenste output. Tel de overlap en het totaal — zo krijg je direct een gevoel of je model de juiste richting opgaat. Voor serieuze evaluatie combineer je de Jaccard Index met andere metrics die ook naar betekenis en structuur kijken.

FAQ

Veelgestelde vragen over Jaccard Index

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Jaccard Index?

Een getalletje tussen 0 en 1 dat aangeeft hoe sterk twee sets op elkaar lijken — handig om te meten of AI-tekst overeenkomt met de verwachte output.

Waarom is Jaccard Index belangrijk?

Stel je voor dat je twee boodschappenlijstjes naast elkaar legt. De ene lijst heeft appels, brood, kaas en melk. De andere heeft brood, melk, eieren en boter. Hoeveel hebben ze gemeen? De Jaccard Index is een simpele manier om dat uit te rekenen: je kijkt naar de overlap (brood en melk) en deelt die door het totaal aantal unieke producten (appels, brood, kaas, melk, eieren, boter). In dit geval: 2 gedeeld door 6 = 0,33.

Hoe wordt Jaccard Index toegepast?

In de AI-wereld werkt het precies zo. Je vergelijkt twee verzamelingen — bijvoorbeeld de woorden die een chatbot gebruikt versus de woorden die je verwachtte, of de labels die een model aan een foto geeft versus de juiste labels. Een Jaccard Index van 1,0 betekent perfecte overlap (alle items komen overeen). Een score van 0,0 betekent dat er helemaal geen overeenkomst is.

Deel: