Wat is Return?
De beloning die een AI-agent verwacht te krijgen voor een reeks acties — de optelsom van alle tussentijdse scores tijdens een taak.

Wat is een Return?
Stel je voor: je speelt een computerspel waarin je punten krijgt voor elke goede zet. De return is niet alleen de punten van je laatste actie, maar de totale score die je verwacht op te bouwen vanaf nu tot het einde van het spel. Het is de som van alle beloningen die een AI-agent denkt te ontvangen als hij een bepaalde strategie volgt.
In Reinforcement Learning — het type AI waarbij een systeem leert door trial-and-error — is de return het centrale kompas. Een agent (bijvoorbeeld een spelpersonage, een robot, of een chatbot) voert acties uit, krijgt beloningen of straffen, en leert welke acties op de lange termijn de hoogste return opleveren.
Hoe werkt het eigenlijk?
Bij elke stap in een taak krijgt de agent een reward — een cijfer dat aangeeft hoe goed die actie was. Misschien +10 punten voor een muntstuk oprapen, of -5 voor tegen een obstakel botsen. De return is dan:
Return = beloning nu + beloning volgende stap + beloning daarna + ...
Maar hier komt de truc: beloningen in de verre toekomst tellen vaak iets minder zwaar. De agent disconteert toekomstige beloningen met een factor (meestal aangeduid met de Griekse letter gamma). Een beloning over 10 stappen is minder zeker en dus minder belangrijk dan een beloning direct voor je neus. Denk aan het verschil tussen €100 nu of €100 over tien jaar — het eerste voelt waardevoller.
De agent leert niet per actie, maar probeert de verwachte return te maximaliseren: welke reeks acties geeft op termijn de hoogste totaalscore? Dat maakt Reinforcement Learning krachtig voor complexe taken waar je niet altijd direct ziet of iets goed of slecht was.
Een voorbeeld uit de praktijk
Stel: een zelfrijdende auto-AI moet door een drukke stad navigeren. Bij elke beslissing — gas geven, remmen, afslaan — krijgt de auto feedback:
Gas geven op een lege weg: +1 punt (voortgang)
Te hard remmen: -2 punten (passagiers schrikken)
Veilig parkeren op de eindbestemming: +50 punten
De return van een beslissing op T-kruispunt 3 is niet alleen die ene beloning daar, maar de som van alle punten die volgen tot het einde van de rit. De AI leert dat even rustig doorrijden op kruispunt 3 — ook al levert dat zelf weinig op — uiteindelijk leidt tot die grote +50 bij aankomst. Door duizenden ritten te oefenen ontdekt de agent welke strategie de hoogste gemiddelde return oplevert.
Waar kom je het tegen?
De term return is standaard in alle Reinforcement Learning-frameworks en -papers. Je ziet het in:
OpenAI Gym — de populaire toolkit om RL-algoritmes te testen
DeepMind-onderzoek — papers over AlphaGo, MuZero en spelende AI's rekenen altijd met returns
Robotica — robots die leren lopen of grijpen optimaliseren hun bewegingen op basis van cumulatieve return
Gaming AI — spelcharacters die zelf leren spelen (bijvoorbeeld Dota 2-bots) worden getraind met return als einddoel
Aanbevelingssystemen — sommige platformen gebruiken RL om te leren welke content op lange termijn de meeste betrokkenheid (return) oplevert
Als je met tools als Stable Baselines3, Ray RLlib of TensorFlow Agents aan de slag gaat, zie je return steeds terugkomen in de logs en evaluaties.
Waarom is dit belangrijk?
Return is de rode draad in elk Reinforcement Learning-systeem. Het verschil tussen een kortzichtige agent (die alleen naar de volgende beloning kijkt) en een strategische agent (die denkt in termen van return) kan enorm zijn. Schaken is daar een mooi voorbeeld van: een pion opofferen (korte termijn: verlies) kan leiden tot schaakmat drie zetten later (lange termijn: winst). De return dwingt de AI om vooruit te denken.
Als je zelf ooit een agent wilt trainen — of gewoon wilt begrijpen waarom een AI bepaalde keuzes maakt in een spel of simulatie — dan is return het getal waar alles om draait. Het is de score die de agent probeert te maximaliseren, en dus de sleutel tot intelligent gedrag.
Veelgestelde vragen over Return
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Return?
De beloning die een AI-agent verwacht te krijgen voor een reeks acties — de optelsom van alle tussentijdse scores tijdens een taak.
Waarom is Return belangrijk?
Stel je voor: je speelt een computerspel waarin je punten krijgt voor elke goede zet. De return is niet alleen de punten van je laatste actie, maar de totale score die je verwacht op te bouwen vanaf nu tot het einde van het spel. Het is de som van alle beloningen die een AI-agent denkt te ontvangen als hij een bepaalde strategie volgt.
Hoe wordt Return toegepast?
In Reinforcement Learning — het type AI waarbij een systeem leert door trial-and-error — is de return het centrale kompas. Een agent (bijvoorbeeld een spelpersonage, een robot, of een chatbot) voert acties uit, krijgt beloningen of straffen, en leert welke acties op de lange termijn de hoogste return opleveren.