Alle termenReinforcement Learning & agents

Wat is AI Reward?

Een numeriek signaal dat een AI-agent krijgt na elke actie — een soort 'punten' die aangeven of het goed of fout bezig is. Zo leert de agent wat wel en niet werkt.

Ook bekend als: Reward, reward, beloning

Wat is een AI Reward eigenlijk?

Stel je voor: je leert een hond een kunstje. Doet hij het goed? Dan krijgt hij een koekje. Doet hij het verkeerd? Geen koekje. Na een tijdje snapt de hond: dit gedrag levert koekjes op, dat gedrag niet. Een AI Reward werkt precies zo — maar dan met getallen in plaats van koekjes.

Een AI Reward is het feedbacksignaal dat een AI-agent ontvangt na elke actie die hij uitvoert. Het is een simpel getal: positief (+1, +10, +0,5) als de actie goed was, negatief (-1, -5) als het fout ging, of nul als het neutraal was. Die rewards zijn de enige manier waarop de agent leert wat 'goed gedrag' is — er is geen handleiding, geen uitleg, alleen trial-and-error met punten als kompas.

Dit principe heet Reinforcement Learning: de AI probeert van alles uit, krijgt rewards, en past zijn gedrag aan om in de toekomst meer punten te scoren. Net zoals jij leert fietsen door te vallen (negatieve reward) en rechtop blijven (positieve reward).

Hoe werkt het in de praktijk?

Een concreet voorbeeld: een AI leert schaak spelen. Na elke zet krijgt hij een reward:

Wint de partij? +100 punten
Verliest de partij? -100 punten
Slaat een stuk van de tegenstander? +5 punten
Verliest een eigen stuk? -5 punten
Zet die niks oplevert? 0 punten

De AI speelt duizenden partijen, houdt bij welke zetten tot hoge rewards leiden, en gaat die zetten vaker doen. Zo bouwt hij een 'gevoel' op voor wat werkt — zonder dat iemand hem de regels van goed schaken heeft uitgelegd.

Het lastige: de reward-functie ontwerpen. Jij als mens moet beslissen wat 'goed' is. Wil je dat de AI snel wint of juist lang overleeft? Moet hij offensief of defensief spelen? De manier waarop je punten uitdeelt, stuurt het gedrag volledig. Verkeerde rewards leiden tot vreemd gedrag: een opruimrobot die expres rommel maakt om daarna punten te scoren met opruimen.

Waar kom je het tegen?

Game-AI — zoals AlphaGo (Go), OpenAI Five (Dota 2), of schaakprogramma's die zichzelf trainen
Robotica — robots die leren lopen, grijpen of navigeren krijgen rewards voor afstand, stabiliteit of snelheid
Chatbots met RLHF — ChatGPT, Claude en Gemini gebruiken menselijke feedback als reward om antwoorden te verbeteren
Aanbevelingssystemen — YouTube, Netflix en Spotify gebruiken clicks en kijktijd als impliciete rewards
Zelfrijdende auto's — simulaties waarin de auto rewards krijgt voor veilig rijden en boetes voor crashes
Advertentie-optimalisatie — systemen die leren welke ads klikken opleveren (positieve reward)

Waarom is dit belangrijk voor jou?

De reward bepaalt wat een AI leert. Als je ooit zelf een AI-systeem laat trainen (of ermee werkt), is het cruciaal om te begrijpen: de AI doet niet wat jij bedoelt, maar wat de reward-functie zegt. Een klantenservice-chatbot die rewards krijgt voor snelle afhandeling, leert gesprekken snel afsluiten — ook als de klant nog een vraag heeft. Een die rewards krijgt voor klanttevredenheid, leert om juist door te vragen.

Denk dus goed na: wat wil je écht meten? En welk gedrag lok je daarmee uit? De kunst is om een reward te ontwerpen die jouw werkelijke doel weerspiegelt — niet alleen het makkelijkst meetbare getal.

FAQ

Veelgestelde vragen over AI Reward

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is AI Reward?

Een numeriek signaal dat een AI-agent krijgt na elke actie — een soort 'punten' die aangeven of het goed of fout bezig is. Zo leert de agent wat wel en niet werkt.

Waarom is AI Reward belangrijk?

Hoe wordt AI Reward toegepast?

Deel:

Laatst bijgewerkt 4 mei 2026