Wat is Policy Gradient?
Een techniek waarmee een AI-agent leert welke acties hem dichter bij zijn doel brengen — niet door elke mogelijkheid te onthouden, maar door direct het beslissingsproces zelf bij te sturen.

Hoe werkt het eigenlijk?
Stel je voor: je leert fietsen. Je ouder zegt niet bij elke bocht: "draai nu precies 37 graden naar links". In plaats daarvan geef je zelf stuur, valt af en toe, en voelt gaandeweg: "als ik naar links leun, gaat-ie die kant op". Je leert het gevoel van sturen, niet een tabel met situaties.
Policy Gradient werkt net zo. Het is een manier om een AI-agent — bijvoorbeeld een robot, een game-speler of een virtuele assistent — te leren welke acties slim zijn. In plaats van een waardetabel bij te houden voor elke mogelijke situatie (zoals bij Q-learning), past Policy Gradient direct de beslissingsstrategie (de "policy") aan. Die strategie bepaalt: "in deze situatie doe ik dit".
Het werkt zo: de agent probeert iets uit, kijkt of het goed uitpakte (kreeg ik een beloning?), en schuift de kans op die actie iets omhoog of omlaag. Werkte het niet? Dan wordt de kans kleiner. Werkte het wél? Dan wordt die kans groter. Dit gebeurt duizenden keren, totdat de agent een goede "policy" heeft — een gevoel voor wat werkt.
De term "gradient" verwijst naar de richting waarin je de strategie moet bijsturen om beter te worden. Net zoals je op een heuvel voelt in welke richting het omhoog gaat, voelt het algoritme welke kant de policy op moet.
Waarom zou jij hier iets aan hebben?
Policy Gradient is belangrijk omdat het werkt in situaties waar klassieke methoden vastlopen:
Continue acties: niet elke beslissing is "links of rechts". Soms moet een robot een arm vloeiend bewegen, of een zelfrijdende auto zacht remmen. Policy Gradient kan dat — het leert "hoeveel" in plaats van alleen "wel of niet".
Complexe omgevingen: waar er te veel situaties zijn om allemaal te onthouden, leert Policy Gradient patronen in plaats van losse gevallen.
Langetermijndenken: de agent leert niet alleen wat nú werkt, maar welke reeks acties uiteindelijk tot succes leidt.
Denk aan een schaakprogramma dat leert welke zet een goede positie oplevert, of een chatbot die leert welke antwoorden een gesprek prettig houden. Policy Gradient helpt de AI het proces van goede beslissingen te leren, niet alleen de uitkomst.
Een voorbeeld uit de praktijk
Een bekend voorbeeld: de robotarm die leert grijpen. In het begin beweegt de arm chaotisch, mist het object, stoot het om. Maar elke keer dat de arm het object toch vastpakt, krijgt hij een beloning. Policy Gradient schuift dan de kansen bij: "die beweging werkte, doe dat vaker". Na duizenden pogingen heeft de arm een vloeiende grijpbeweging geleerd — zonder dat iemand ooit exact heeft geprogrammeerd welke motor wanneer hoeveel moet draaien.
Of neem een game-AI die leert Mario te spelen. Policy Gradient helpt de AI leren dat "springen vlak voor een gat" vaker tot overleven leidt dan "rechtdoor rennen". De AI onthoudt niet elk pixel-patroon, maar leert een gevoel voor timing.
Waar kom je het tegen?
Policy Gradient zit onder de motorkap van veel moderne AI-systemen:
OpenAI's robotica-onderzoek: robothanden die objecten manipuleren
DeepMind's AlphaGo en AlphaZero: leren strategisch spelen door zelfspel
Reinforcement Learning-frameworks: zoals Stable Baselines3, RLlib, TensorFlow Agents
Autonome voertuigen: leren veilig sturen in simulaties
Chatbot-training: zoals RLHF (Reinforcement Learning from Human Feedback) bij GPT-modellen — daar wordt Policy Gradient gebruikt om het model bij te sturen op basis van menselijke feedback
Als je ooit een AI hebt zien "leren door te doen" in een video — een robot die leert lopen, een drone die leert vliegen — is de kans groot dat Policy Gradient een rol speelde.
Wat kun je ermee?
Als je zelf met AI experimenteert of een bedrijf runt waar automatisering belangrijk wordt, is het goed om te weten: Policy Gradient is één van de manieren waarop agents leren. Het is niet altijd de snelste of makkelijkste methode (sommige andere methoden zijn stabieler), maar het is krachtig als je agent vloeiende, genuanceerde beslissingen moet leren — niet alleen "ja of nee", maar "hoeveel en wanneer".
Wil je meer weten over hoe agents leren? Kijk dan ook naar termen als Reinforcement Learning, Q-learning en Reward Function — ze horen allemaal bij hetzelfde verhaal.
Veelgestelde vragen over Policy Gradient
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Policy Gradient?
Een techniek waarmee een AI-agent leert welke acties hem dichter bij zijn doel brengen — niet door elke mogelijkheid te onthouden, maar door direct het beslissingsproces zelf bij te sturen.
Waarom is Policy Gradient belangrijk?
Stel je voor: je leert fietsen. Je ouder zegt niet bij elke bocht: "draai nu precies 37 graden naar links". In plaats daarvan geef je zelf stuur, valt af en toe, en voelt gaandeweg: "als ik naar links leun, gaat-ie die kant op". Je leert het gevoel van sturen, niet een tabel met situaties.
Hoe wordt Policy Gradient toegepast?
Policy Gradient werkt net zo. Het is een manier om een AI-agent — bijvoorbeeld een robot, een game-speler of een virtuele assistent — te leren welke acties slim zijn. In plaats van een waardetabel bij te houden voor elke mogelijke situatie (zoals bij Q-learning), past Policy Gradient direct de beslissingsstrategie (de "policy") aan. Die strategie bepaalt: "in deze situatie doe ik dit".