Alle termenReinforcement Learning & agents

Wat is Epsilon-Greedy?

Een strategie waarbij een AI-agent meestal de beste actie kiest die hij kent, maar af en toe bewust iets nieuws probeert om te leren — zoals een schaakspeler die 9 van de 10 keer zijn beste zet doet, maar af en toe experimenteert.

Wat is Epsilon-Greedy eigenlijk?

Stel je voor: je gaat elke dag lunchen en hebt één broodjeszaak ontdekt die je lekker vindt. Ga je nu elke dag daarheen (omdat je weet dat het goed is), of probeer je af en toe een andere tent — met het risico dat het tegenvalt, maar misschien vind je wel iets nóg beters?

Dat dilemma — kiezen tussen wat je al kent versus iets nieuws proberen — is precies waar Epsilon-Greedy over gaat. Het is een beslissingsstrategie die AI-agents gebruiken bij reinforcement learning: het leren door trial-and-error in een omgeving waar ze beloningen kunnen verdienen.

De naam komt van de Griekse letter epsilon (ε), die hier staat voor een klein kanspercentage. De strategie werkt zo: in de meeste gevallen (bijvoorbeeld 90% van de tijd) kiest de agent de actie waarvan hij denkt dat die het beste resultaat oplevert — dat heet exploitation (uitbuiten van kennis). Maar in een klein percentage van de gevallen (die andere 10%, de epsilon) kiest hij bewust een willekeurige actie — dat heet exploration (verkennen).

Waarom zou je bewust slechte keuzes maken?

Dat klinkt misschien raar: waarom zou een AI expres iets doen dat waarschijnlijk slechter werkt? Het antwoord: omdat de wereld groter is dan wat je al gezien hebt.

Als een agent alleen maar doet wat tot nu toe het beste werkte, kan hij vastzitten in een lokaal optimum — een oplossing die goed lijkt, maar niet de allerbeste is. Stel dat die broodjeszaak een 7/10 scoort, maar verderop zit er eentje met een 9/10 — die ontdek je nooit als je niet af en toe durft af te wijken.

In AI-termen: een robot die leert lopen kan ontdekken dat kleine stapjes veilig zijn en een beetje beloning opleveren. Als hij nooit grotere stappen probeert, leert hij nooit dat die veel efficiënter zijn. Epsilon-Greedy zorgt ervoor dat hij af en toe tóch een grote stap neemt — en zo mogelijk een betere strategie ontdekt.

Hoe werkt het in de praktijk?

De epsilon-waarde is een getal tussen 0 en 1, meestal iets als 0,1 (10%) of 0,05 (5%). Bij elke beslissing gooit de agent virtueel een dobbelsteen:

90-95% van de tijd: kies de actie met de hoogste verwachte beloning (exploitation)
5-10% van de tijd: kies een willekeurige actie, ongeacht wat je denkt te weten (exploration)

Veel systemen gebruiken een afnemende epsilon: aan het begin van het leerproces is epsilon hoog (bijvoorbeeld 0,3 of 30%), zodat de agent veel verkent. Naarmate hij meer leert, wordt epsilon kleiner (naar 0,05 of zelfs 0,01), zodat hij steeds vaker zijn opgedane kennis toepast en minder vaak nog experimenteert.

Een voorbeeld uit de praktijk

Denk aan een aanbevelingssysteem voor muziek. De AI weet dat jij van indie-rock houdt — elke keer dat hij je een indie-rockband voorstelt, klik je door (beloning). Maar als het systeem puur epsilon-greedy werkt, speelt het af en toe (die 5-10%) bewust een jazzplaat, een schlagernummer of klassieke muziek af.

Dat voelt misschien irritant, maar het heeft twee voordelen:

Misschien ontdekt het systeem dat je stiekem ook van jazz houdt — informatie die het anders nooit had gekregen
Het voorkomt dat je vastzit in een filterbubbel waar je alleen maar steeds dezelfde soort muziek hoort

Of neem een zelflerende thermostaat: 95% van de tijd past hij de temperatuur aan op basis van wat tot nu toe comfortabel bleek. Maar 5% van de tijd probeert hij iets anders — misschien een net iets lagere temperatuur 's nachts, of een andere opwarmsnelheid — om te zien of dat energiezuiniger of comfortabeler is.

Waar kom je het tegen?

Epsilon-Greedy is een van de populairste strategieën in reinforcement learning, omdat het simpel en effectief is. Je komt het tegen in:

Game AI — agents die leren spelletjes te spelen (schaak, Go, videogames), vooral in de trainingsfase
Robotica — robots die leren lopen, grijpen of navigeren in onbekende omgevingen
Aanbevelingssystemen — zoals Netflix, Spotify, YouTube (al gebruiken die vaak geavanceerdere varianten)
A/B-testing-tools — systemen die experimenteren met website-varianten om conversie te optimaliseren
Advertentie-optimalisatie — welke advertentie laat je zien aan wie, om de best scorende combinatie te vinden?

De meeste open-source reinforcement learning-bibliotheken (zoals OpenAI Gym, Stable Baselines, Ray RLlib) hebben epsilon-greedy ingebouwd als standaardoptie.

Alternatieven en varianten

Epsilon-Greedy is niet de enige manier om dit probleem op te lossen. Andere strategieën zijn:

Upper Confidence Bound (UCB) — kiest acties op basis van hoeveel onzekerheid er nog over is
Thompson Sampling — gebruikt kansverdelingen om slimmer te kiezen tussen uitbuiten en verkennen
Softmax / Boltzmann Exploration — kiest acties proportioneel aan hun verwachte waarde, in plaats van helemaal willekeurig

Maar Epsilon-Greedy blijft populair omdat het zo eenvoudig te begrijpen en implementeren is, en voor veel toepassingen goed genoeg werkt.

Wat kun je ermee?

Als je zelf een systeem bouwt dat moet leren door trial-and-error — bijvoorbeeld een chatbot die leert welke antwoorden het beste werken, of een tool die leert welke content-varianten het meest engagement opleveren — dan is epsilon-greedy vaak een goed startpunt. Het helpt je voorkomen dat je systeem te snel vastroest in één aanpak, en blijft ontdekken of er betere oplossingen zijn. De kunst zit 'm in het vinden van de juiste balans: genoeg exploratie om te blijven leren, maar niet zoveel dat je gebruikers frustreert met slechte keuzes.