Direct naar inhoud
Alle termenNeurale netwerken & deep learning

Wat is Scaled Dot-Product Attention?

Een rekentrucje waarmee AI-modellen bepalen welke delen van een tekst écht belangrijk zijn — alsof je met een markeerstift de kern van een verhaal aanstreept.

Wat is Scaled Dot-Product Attention

Wat is het eigenlijk?

Stel je voor dat je een lang artikel leest over een bedrijf. Sommige zinnen zijn cruciaal voor je begrip, andere zijn bijzaak. Jouw brein doet dat automatisch: het let op wat belangrijk is en negeert de rest. Scaled Dot-Product Attention is het mechanisme waarmee AI-modellen datzelfde kunstje flikken.

Het zit in het hart van moderne taalmodellen zoals die achter ChatGPT, Claude of Gemini. Wanneer zo'n model een zin verwerkt, moet het constant beslissen: welk woord hangt samen met welk ander woord? In de zin "De kat die op de mat zat miauwde" moet het model weten dat "miauwde" bij "kat" hoort, niet bij "mat". Scaled Dot-Product Attention is de methode die dat uitrekent.

De naam klinkt ingewikkelder dan het is. "Dot-product" is gewoon een manier om te meten hoe goed twee dingen bij elkaar passen — je vermenigvuldigt cijferlijstjes met elkaar. "Scaled" betekent dat je het resultaat een beetje tempert, zodat het niet te extreem wordt. En "attention" is natuurlijk aandacht: het model geeft meer aandacht aan woorden die relevant zijn voor elkaar.

Hoe werkt het in de praktijk?

Laten we het concreet maken. Stel, het model leest: "Marie woont in Amsterdam. Zij houdt van fietsen."

Voor elk woord maakt het model drie lijstjes met getallen (zogenaamde queries, keys en values — denk aan zoektermen, labels en inhoud). Dan vergelijkt het de query van "Zij" met de keys van alle eerdere woorden. Die vergelijking gebeurt via dat dot-product: hoeveel overlap is er?

Het blijkt dat "Zij" het beste matcht met de key van "Marie". Dat krijgt een hoge score. "Amsterdam" en "fietsen" krijgen lagere scores. Vervolgens gebruikt het model die scores als gewichten: de betekenis van "Zij" wordt voor 80% bepaald door "Marie", en voor 10% door "Amsterdam" en 10% door de rest. Zo weet het model dat "Zij" verwijst naar Marie.

Dat "scaled"-gedeelte? Dat zorgt ervoor dat die scores niet te groot worden. Als je scores van 1000 of 10.000 krijgt, raakt het rekenproces in de war. Door te delen door de wortel van de lengte van die cijferlijstjes blijven de getallen netjes hanteerbaar.

Waarom is dit zo belangrijk?

Vóór deze methode hadden AI-modellen moeite met lange teksten. Ze "vergaten" wat er aan het begin stond. Met Scaled Dot-Product Attention kan een model een heel document in één keer overzien en zelf bepalen wat relevant is voor elk stukje. Dat was de doorbraak die het Transformer-model (Vaswani et al., 2017) mogelijk maakte — de techniek waar vrijwel alle moderne taalmodellen op draaien.

Het mooie is dat het model dit zelf leert. Jij hoeft niet te programmeren "let op het onderwerp van de zin". Het model ontdekt tijdens de training vanzelf welke woorden naar elkaar verwijzen, welke context relevant is, welke nuances tellen.

Waar kom je het tegen?

Je merkt het niet direct, maar élke keer dat je een gesprek hebt met een AI-assistent, zie je dit mechanisme aan het werk:

  • ChatGPT, Claude, Gemini, Copilot — allemaal gebouwd op Transformers die Scaled Dot-Product Attention gebruiken om context te begrijpen

  • Vertalers zoals DeepL en Google Translate — ze bepalen welke woorden in de brontaal corresponderen met woorden in de doeltaal

  • Automatische samenvattingen — het model pikt de belangrijkste zinnen eruit door attention-scores te analyseren

  • Code-assistenten zoals GitHub Copilot — ze zien welke variabelen en functies in je code met elkaar samenhangen

  • Zoekmachines — moderne zoekalgoritmes gebruiken attention om te begrijpen wat je écht bedoelt met je zoekvraag

Je kunt het mechanisme zelf niet "instellen" of aanpassen — het zit ingebakken in de architectuur. Maar als je begrijpt dat het bestaat, snap je beter waarom moderne AI zo goed is in het volgen van een gesprek of het begrijpen van context.

Wat kun je ermee?

Als gebruiker hoef je niks te doen — het gebeurt automatisch. Maar het helpt om te weten dat het model niet zomaar woord-voor-woord leest. Het weegt constant af wat relevant is. Daarom kun je in een gesprek verwijzen naar iets dat je tien berichten geleden zei, en "snapt" het model nog steeds waar je het over hebt.

Voor ontwikkelaars of techneuten die zelf met AI-modellen werken: Scaled Dot-Product Attention is de basis van multi-head attention (waarbij het model meerdere attention-patronen tegelijk uitrekent) en daarmee van de hele Transformer-stack. Wil je dieper duiken? Lees het originele Transformer-paper: "Attention Is All You Need" (2017), te vinden op arXiv. Daar staat de wiskundige notatie, maar het idee is precies wat we hier beschreven.

FAQ

Veelgestelde vragen over Scaled Dot-Product Attention

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Scaled Dot-Product Attention?

Een rekentrucje waarmee AI-modellen bepalen welke delen van een tekst écht belangrijk zijn — alsof je met een markeerstift de kern van een verhaal aanstreept.

Waarom is Scaled Dot-Product Attention belangrijk?

Stel je voor dat je een lang artikel leest over een bedrijf. Sommige zinnen zijn cruciaal voor je begrip, andere zijn bijzaak. Jouw brein doet dat automatisch: het let op wat belangrijk is en negeert de rest. Scaled Dot-Product Attention is het mechanisme waarmee AI-modellen datzelfde kunstje flikken.

Hoe wordt Scaled Dot-Product Attention toegepast?

Het zit in het hart van moderne taalmodellen zoals die achter ChatGPT, Claude of Gemini. Wanneer zo'n model een zin verwerkt, moet het constant beslissen: welk woord hangt samen met welk ander woord? In de zin "De kat die op de mat zat miauwde" moet het model weten dat "miauwde" bij "kat" hoort, niet bij "mat". Scaled Dot-Product Attention is de methode die dat uitrekent.

Deel: