Direct naar inhoud
Alle termenFundamenten & kernconcepten

Wat is Reinforcement Learning?

Een manier waarop AI leert door te experimenteren: het systeem probeert dingen uit, krijgt een beloning als het goed gaat, en straf als het fout gaat — net zoals je een hond leert zitten.

Ook bekend als: RL

Wat is Reinforcement Learning

Leren door vallen en opstaan

Reinforcement Learning (RL) is een manier waarop AI-systemen leren door simpelweg dingen uit te proberen. In plaats van dat je het systeem van tevoren exact vertelt wat het moet doen, laat je het experimenteren. Doet het iets goeds? Dan krijgt het een beloning. Doet het iets fouts? Dan krijgt het een 'straf' (vaak gewoon: geen beloning). Na duizenden pogingen leert het systeem vanzelf welke acties tot de beste resultaten leiden.

Stel je voor: je leert een kind fietsen. Je zegt niet: "Draai het stuur 3,2 graden naar links bij 12 km/u." Je laat het kind gewoon proberen, vallen, weer opstappen — en na een tijdje snapt het kind vanzelf hoe balans werkt. Reinforcement Learning werkt op precies die manier.

Hoe werkt het eigenlijk?

Een Reinforcement Learning-systeem bestaat uit drie onderdelen:

  • De agent — dat is het AI-systeem dat leert (bijvoorbeeld een virtuele robot, een spelcomputer, of een aanbevelingsalgoritme)

  • De omgeving — de wereld waarin de agent opereert (een computerspel, een fabriek, een webshop)

  • De beloningen — punten die de agent krijgt of verliest, afhankelijk van zijn keuzes

De agent doet een actie, kijkt wat er gebeurt, en ontvangt feedback in de vorm van een getal (de beloning). Zijn doel: zoveel mogelijk punten verzamelen op de lange termijn. Niet per se nu meteen, maar over de hele rit.

Bij een schaakspel krijgt de agent bijvoorbeeld +1 punt als hij wint, -1 als hij verliest, en 0 bij remise. Alle zetten daarvoor krijgen geen directe beloning — maar het systeem leert na miljoenen gespeelde partijen welke zetten uiteindelijk tot winst leiden.

Waarom is dit zo krachtig?

Reinforcement Learning is bijzonder geschikt voor situaties waar je geen voorbeelden hebt van "de perfecte oplossing", maar wel kunt zeggen of iets goed of slecht afloopt. Denk aan:

  • Spellen — AlphaGo van DeepMind leerde zo Go spelen, beter dan welke mens ook. Het speelde miljoenen keer tegen zichzelf.

  • Robotica — een robotarm leert objecten te pakken door duizenden keren te grijpen, vallen, opnieuw proberen.

  • Aanbevelingen — een platform leert welke content jou boeit door te kijken of je doorklikt, blijft kijken, of wegklikt.

  • Zelfrijdende auto's — in simulaties leren ze hoe ze moeten remmen, sturen en anticiperen op andere weggebruikers.

Het nadeel: Reinforcement Learning kost enorm veel tijd en rekenkracht. Een agent moet vaak miljoenen keer falen voordat hij begrijpt wat werkt. Dat is geen probleem in een computerspel, maar in de echte wereld (denk: een zelfrijdende auto die eerst duizend keer moet crashen) ligt dat ingewikkelder. Daarom wordt RL vaak eerst getraind in simulaties.

Waar kom je het tegen?

Reinforcement Learning zit achter veel AI-systemen die je misschien al kent:

  • ChatGPT en andere chatbots — na de initiële training worden ze verder verfijnd met RLHF (Reinforcement Learning from Human Feedback): menselijke beoordelaars geven aan welke antwoorden beter zijn, en het model leert daarvan.

  • Aanbevelingsalgoritmes op YouTube, Netflix, TikTok — ze leren welke video's jou langer op het platform houden.

  • Spelcomputers — van schaak en Go tot Dota 2 en StarCraft, veel van de sterkste game-AI's zijn getraind met RL.

  • Optimalisatie in datacenters — Google gebruikt RL om energieverbruik in hun serverparken te verlagen.

Experimenteer er zelf mee

Als je wilt zien hoe Reinforcement Learning werkt, kun je online simulaties vinden waar een virtueel figuurtje leert lopen, springen of balanceren — puur door trial-and-error. Er zijn ook toegankelijke programmeer-omgevingen zoals OpenAI Gym, waar je zonder veel technische kennis een agent kunt laten experimenteren in eenvoudige spelletjes. Maar het belangrijkste inzicht hoef je niet te programmeren: begrijp dat AI niet altijd instructies volgt — soms leert het gewoon door te doen, te falen, en steeds een beetje beter te worden. Net als jij.

FAQ

Veelgestelde vragen over Reinforcement Learning

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Reinforcement Learning?

Een manier waarop AI leert door te experimenteren: het systeem probeert dingen uit, krijgt een beloning als het goed gaat, en straf als het fout gaat — net zoals je een hond leert zitten.

Waarom is Reinforcement Learning belangrijk?

Reinforcement Learning (RL) is een manier waarop AI-systemen leren door simpelweg dingen uit te proberen. In plaats van dat je het systeem van tevoren exact vertelt wat het moet doen, laat je het experimenteren. Doet het iets goeds? Dan krijgt het een beloning. Doet het iets fouts? Dan krijgt het een 'straf' (vaak gewoon: geen beloning). Na duizenden pogingen leert het systeem vanzelf welke acties tot de beste resultaten leiden.

Hoe wordt Reinforcement Learning toegepast?

Stel je voor: je leert een kind fietsen. Je zegt niet: "Draai het stuur 3,2 graden naar links bij 12 km/u." Je laat het kind gewoon proberen, vallen, weer opstappen — en na een tijdje snapt het kind vanzelf hoe balans werkt. Reinforcement Learning werkt op precies die manier.

Deel:

Besproken in artikelen

Waar lees je meer over Reinforcement Learning op dit platform?