Alle termenReinforcement Learning & agents

Wat is Multi-Armed Bandit?

Een leerstrategie waarbij een AI-systeem moet kiezen tussen verschillende opties terwijl het tegelijk leert welke optie het beste werkt — zoals een gokautomaat met meerdere hendels die je moet uitproberen.

Wat is een Multi-Armed Bandit eigenlijk?

Stel je voor dat je in een casino staat voor een rij gokautomaten. Elke machine heeft een hendel (in het Engels: 'arm') en geeft verschillende gemiddelde uitbetalingen — maar je weet niet welke het beste is. Je hebt beperkt budget. Moet je steeds dezelfde machine blijven proberen? Of verschillende machines uitproberen om te leren welke het meeste oplevert?

Dat is precies het Multi-Armed Bandit-probleem. Het gaat over een fundamentele spanning in AI: moet je uitbuiten wat je al weet (exploitation), of verder verkennen om betere opties te vinden (exploration)?

In AI-systemen kom je deze situatie overal tegen: welke advertentie toon je aan een bezoeker? Welke aanbeveling geef je? Welke route kies je? Het systeem moet kiezen tussen opties waarvan het de uitkomst niet precies kent, en tegelijk leren van elke keuze.

Hoe werkt het eigenlijk?

Een Multi-Armed Bandit-algoritme werkt in rondes:

Keuze maken: Het systeem kiest één van de beschikbare 'armen' (opties)
Feedback krijgen: Het ziet wat het oplevert — een beloning of score
Bijstellen: Het past zijn inschatting aan van welke opties het meest beloven
Balans vinden: Het moet blijven afwegen: verder testen (exploration) of de beste optie vaker kiezen (exploitation)

Het slimme zit in de strategie. Enkele veelgebruikte aanpakken:

Epsilon-greedy: Kies meestal de beste bekende optie, maar af en toe willekeurig een andere om te blijven leren
Upper Confidence Bound (UCB): Geef opties die je nog weinig hebt geprobeerd een 'vertrouwensbonus' — misschien zijn ze stiekem beter
Thompson Sampling: Gebruik kansberekening om te bepalen welke optie waarschijnlijk het beste is, inclusief onzekerheid

Het verschil met volwaardige Reinforcement Learning: een bandit heeft geen 'toestand' die verandert. Elke keuze staat op zichzelf — je bouwt geen langeretermijnstrategie op. Dat maakt het eenvoudiger, maar ook beperkter.

Een voorbeeld uit de praktijk

Een webshop wil de beste productaanbeveling tonen op de homepage. Ze hebben vijf verschillende widgets:

"Populair deze week"
"Omdat je recent keek naar..."
"Nieuwe collectie"
"Exclusieve kortingen"
"Bestsellers"

Elke bezoeker ziet er één. De webshop wil leren welke widget gemiddeld tot de meeste aankopen leidt — maar wel doorgaan met verkopen tijdens het leren.

Een Multi-Armed Bandit-algoritme test alle widgets in de eerste weken, ziet dat "Omdat je recent keek naar..." het beste scoort, en toont die vanaf dan vaker. Maar af en toe probeert het nog steeds de andere opties, voor het geval de voorkeur van bezoekers verandert of seizoensgebonden is.

Resultaat: de webshop maximaliseert omzet, zonder eindeloos A/B-testen met vaste percentages.

Waar kom je het tegen?

A/B-testing platformen — Optimizely, Google Optimize en VWO gebruiken bandit-algoritmes om automatisch verkeer naar betere varianten te sturen
Aanbevelingssystemen — YouTube, Spotify en Netflix testen welke content-suggesties het beste werken per gebruikersgroep
Online advertenties — Google Ads en Facebook Ads kiezen welke advertentie ze tonen op basis van eerdere klikratio's
Chatbots en assistenten — Welke antwoordvariant leidt tot de hoogste gebruikerstevredenheid?
Dynamische pricing — Webshops testen welke prijzen of kortingen het beste converteren

Waarom is dit relevant voor jou?

Als je een website, app of dienst hebt waar je keuzes moet maken over wat je gebruikers toont — en je wilt daarbij leren wat het beste werkt zonder al je bezoekers als testkonijn te gebruiken — dan is Multi-Armed Bandit de strategie die je zoekt.

In plaats van maandenlang 50/50 A/B-testen te draaien, leer je sneller en verlies je minder conversies aan slechtere varianten. Je optimaliseert terwijl je leert. En dat principe — de balans tussen uitproberen en gebruiken wat werkt — is misschien wel de meest fundamentele afweging in elke vorm van leren, menselijk of kunstmatig.