Alle termenReinforcement Learning & agents

Wat is Thompson Sampling?

Een slimme methode om te kiezen tussen opties waarvan je niet precies weet hoe goed ze zijn — door kansberekening te gebruiken om te balanceren tussen uitproberen en blijven doen wat werkt.

Wat is Thompson Sampling eigenlijk?

Stel je voor: je hebt drie apps om advertenties mee te testen, maar je weet niet welke het beste werkt. Je zou maandenlang kunnen testen tot je zeker weet welke de beste is — maar dan heb je intussen veel geld verspild aan de slechte opties. Of je kiest meteen één app en blijft daar bij — maar misschien is een andere veel beter.

Thompson Sampling lost dit dilemma op. Het is een slim systeem dat continu leert welke keuze waarschijnlijk het beste is, en die kennis gebruikt om steeds betere beslissingen te nemen. Niet door alles eindeloos uit te testen, en niet door direct vast te roesten — maar door intelligent te gokken op basis van wat het tot nu toe heeft gezien.

Hoe werkt het eigenlijk?

De techniek werkt met kansverdelingen — maar denk daar niet te ingewikkeld over. Voor elke optie houdt het systeem bij: "hoe waarschijnlijk is het dat dit de beste keuze is?" Die inschatting begint vaag (alles is mogelijk), maar wordt steeds scherper naarmate je meer probeert.

Bij elke nieuwe beslissing doet Thompson Sampling het volgende:

Het trekt voor elke optie een willekeurig getal uit die kansverdeling
De optie met het hoogste getal wordt gekozen
Na afloop wordt de kansverdeling bijgewerkt op basis van het resultaat

Dat klinkt misschien als puur gokken, maar het briljante zit 'm in die kansverdelingen. Een optie die vaak goed scoort krijgt een verdeling waarbij hoge getallen waarschijnlijker zijn — dus wordt die vaker gekozen. Maar een onzekere optie (waar je weinig over weet) heeft een brede verdeling, waardoor af en toe ook die een kans krijgt.

Zo ontstaat vanzelf een balans: het systeem kiest meestal wat nu het beste lijkt, maar blijft af en toe experimenteren met opties waar het nog weinig van weet. Zonder dat je daar regels voor hoeft te schrijven.

Een voorbeeld uit de praktijk

E-commerce platforms gebruiken Thompson Sampling vaak voor aanbevelingen. Stel: een webshop heeft tien nieuwe producten en wil weten welke het beste op de homepage kunnen. In plaats van eerst wekenlang A/B-testen te draaien, laat Thompson Sampling de producten zien aan echte bezoekers.

Een product dat veel clicks krijgt, wordt steeds vaker getoond — maar zo nu en dan krijgt ook een nieuw product een kans. Als dat nieuwe product het dan goed doet, wordt het de volgende keer al vaker gekozen. Producten die slecht presteren verdwijnen langzaam uit beeld. Het resultaat: de webshop leert snel wat werkt, terwijl tegelijk de omzet zo hoog mogelijk blijft.

Hetzelfde principe zie je terug bij:

Advertentie-optimalisatie — welke banner levert de meeste clicks?
Contentaanbevelingen — welk artikel past het best bij deze lezer?
Medische trials — welke behandeling werkt het best voor welke patiënt?
Prijsstrategieën — welke prijs levert de meeste conversie?

Waarom zou jij hier iets aan hebben?

De klassieke manier om iets te testen is A/B-testing: splits je bezoekers in twee groepen, laat ze elk een variant zien, en kijk na een tijd welke het beste werkt. Maar dat heeft nadelen: je moet lang wachten voor je zekerheid hebt, en in die tijd verspil je veel kansen aan de slechtere variant.

Thompson Sampling is dynamisch. Het past zich realtime aan. Als blijkt dat variant A veel beter werkt, krijgt die meteen vaker de kans — zonder dat je hoeft te wachten tot de test "af" is. En tegelijk blijft het nieuwe dingen uitproberen, voor het geval de situatie verandert (andere doelgroep, andere tijdgeest).

Dat maakt het vooral handig als:

Je niet weet hoeveel opties je hebt (nieuwe producten komen erbij, oude verdwijnen)
De prestaties van opties kunnen veranderen over tijd
Je niet wilt wachten tot een test "statistisch significant" is
De kosten van een slechte keuze hoog zijn (verloren omzet, ontevreden gebruikers)

Waar kom je het tegen?

Thompson Sampling zit verweven in veel moderne aanbevelingssystemen en optimalisatietools, vaak zonder dat het expliciet zo genoemd wordt:

Google Optimize en Optimizely (A/B-testing platforms) bieden varianten die op dit principe werken
Bandit-algoritmes in advertentieplatforms (Google Ads, Facebook) gebruiken vergelijkbare mechanismes
Reinforcement learning frameworks zoals Ray RLlib en Vowpal Wabbit ondersteunen Thompson Sampling
Aanbevelingssystemen bij streamingdiensten en webshops passen het toe voor personalisatie

In wetenschappelijk onderzoek (vooral medisch en psychologisch) heet het ook wel "adaptive trial design" — proeven die tijdens het onderzoek al aanpassen welke behandeling patiënten krijgen.

Zelf aan de slag

Je hoeft geen wiskundige te zijn om Thompson Sampling toe te passen. Als je een situatie hebt waar je steeds tussen opties moet kiezen en niet precies weet welke het beste is — denk aan welke content je prominent zet, welke kortingscode je aanbiedt, welke onderwerpregels je test — dan kan dit principe je helpen sneller te leren en ondertussen betere resultaten te behalen. Veel moderne testing-tools hebben dit al ingebouwd; je hoeft alleen te begrijpen wat het doet, zodat je de uitkomsten goed kunt interpreteren.

FAQ

Veelgestelde vragen over Thompson Sampling

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Thompson Sampling?

Een slimme methode om te kiezen tussen opties waarvan je niet precies weet hoe goed ze zijn — door kansberekening te gebruiken om te balanceren tussen uitproberen en blijven doen wat werkt.

Waarom is Thompson Sampling belangrijk?

Hoe wordt Thompson Sampling toegepast?

Deel:

Laatst bijgewerkt 4 mei 2026