Direct naar inhoud
Alle termenLarge Language Models & NLP

Wat is Cosine Similarity?

Een rekenmethode om te meten hoe veel twee stukjes informatie op elkaar lijken — alsof je meet of twee pijlen dezelfde kant op wijzen, ongeacht hun lengte.

Wat is Cosine Similarity

Wat meet je eigenlijk?

Stel je voor dat je twee zinnen hebt: "Ik hou van katten" en "Ik ben gek op poezen". Voor jou is meteen duidelijk dat die zinnen verwant zijn. Maar hoe leg je dat uit aan een computer?

Cosine Similarity is een rekenmethode die meet hoe vergelijkbaar twee dingen zijn — niet door ze letterlijk naast elkaar te leggen, maar door te kijken naar de richting waarin ze wijzen. Het werkt met vectors (lijsten met getallen die woorden of zinnen voorstellen), en meet de hoek tussen die vectors. Hoe kleiner de hoek, hoe meer ze op elkaar lijken.

Hoe werkt het eigenlijk?

Denk aan een kompas. Als twee kompassen allebei naar het noorden wijzen, wijzen ze dezelfde kant op — ook al is de ene kompasnaald langer dan de andere. Cosine Similarity kijkt alleen naar die richting, niet naar de lengte.

In AI worden woorden en zinnen omgezet naar getallen (vectors). "Katten" krijgt bijvoorbeeld een lijst getallen die z'n betekenis vastleggen. "Poezen" krijgt een andere lijst, maar met vergelijkbare waardes. Cosine Similarity berekent de hoek tussen die twee lijsten. Als de hoek klein is (bijna 0 graden), zijn de betekenissen vergelijkbaar. Als de hoek groot is (richting 90 graden), hebben ze weinig met elkaar te maken.

De score loopt van -1 tot 1. Een score van 1 betekent: identiek. Een score van 0 betekent: geen verband. Een score van -1 betekent: tegengesteld.

Waarom zou jij hier iets aan hebben?

Cosine Similarity is de rekentruc achter allerlei AI-toepassingen die je dagelijks tegenkomt:

  • Zoeken: typ iets in een zoekveld, en de AI vindt documenten die qua betekenis op je zoekopdracht lijken — ook al gebruiken ze andere woorden

  • Aanbevelingen: Netflix of Spotify vergelijken wat je net keek of luisterde met andere content, en stellen iets voor dat daar qua thema op lijkt

  • RAG-systemen: een chatbot die een kennisbank doorzoekt, gebruikt Cosine Similarity om te vinden welke stukken tekst het beste bij je vraag passen

  • Duplicaat-detectie: bedrijven gebruiken het om te checken of klanten dezelfde vraag dubbel stellen, of dat twee producten in feite hetzelfde zijn

Een voorbeeld uit de praktijk

Stel, je bouwt een klantenservice-chatbot voor een verzekeraar. Een klant typt: "Hoe meld ik schade aan mijn auto?"

Je kennisbank bevat honderden artikelen. De AI zet de vraag om naar een vector (lijst getallen) en berekent de Cosine Similarity tussen die vector en alle artikelen. Het artikel "Schademelding voertuig — stap voor stap" krijgt een hoge score (bijvoorbeeld 0,89), terwijl "Reisverzekering aanvragen" een lage score krijgt (0,12). De chatbot haalt het beste artikel op en geeft het juiste antwoord.

Zonder Cosine Similarity zou de AI alleen kunnen zoeken op exacte woordmatches — en dan mis je "schade auto" als het artikel alleen "voertuig" zegt.

Waar kom je het tegen?

Cosine Similarity is ingebouwd in:

  • Vector databases zoals Pinecone, Weaviate, Qdrant, Milvus — databases die specifiek ontworpen zijn om met betekenissen te rekenen

  • Embedding-modellen van OpenAI, Cohere, Voyage AI, Google — die woorden en zinnen omzetten naar vectors die je vervolgens met Cosine Similarity kunt vergelijken

  • RAG-frameworks zoals LangChain en LlamaIndex — tools om chatbots te bouwen die kennis ophalen uit documenten

  • Zoeksystemen in bedrijfssoftware (Elastic, Algolia) — steeds vaker met semantische zoekfuncties op basis van Cosine Similarity

Als je met één van deze tools werkt, gebruik je Cosine Similarity — vaak zonder het te beseffen.

Wat kun je ermee?

Als je weet hoe Cosine Similarity werkt, kun je beter inschatten of je AI-systeem slim genoeg is. Krijg je rare zoekresultaten? Misschien zijn je vectors niet goed getraind. Wil je twee teksten vergelijken op betekenis? Dan weet je nu dat Cosine Similarity de standaardmethode is.

Het is ook waardevol bij het kiezen van tools: als een leverancier zegt "wij doen semantisch zoeken", kun je doorvragen: gebruiken jullie embeddings met Cosine Similarity, of iets anders? Zo snap je beter wat je koopt.

FAQ

Veelgestelde vragen over Cosine Similarity

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Cosine Similarity?

Een rekenmethode om te meten hoe veel twee stukjes informatie op elkaar lijken — alsof je meet of twee pijlen dezelfde kant op wijzen, ongeacht hun lengte.

Waarom is Cosine Similarity belangrijk?

Stel je voor dat je twee zinnen hebt: "Ik hou van katten" en "Ik ben gek op poezen". Voor jou is meteen duidelijk dat die zinnen verwant zijn. Maar hoe leg je dat uit aan een computer?

Hoe wordt Cosine Similarity toegepast?

Cosine Similarity is een rekenmethode die meet hoe vergelijkbaar twee dingen zijn — niet door ze letterlijk naast elkaar te leggen, maar door te kijken naar de richting waarin ze wijzen. Het werkt met vectors (lijsten met getallen die woorden of zinnen voorstellen), en meet de hoek tussen die vectors. Hoe kleiner de hoek, hoe meer ze op elkaar lijken.

Deel: