Alle termenReinforcement Learning & agents

Wat is On-Policy?

Een leerstrategie waarbij een AI-agent leert door te kijken naar acties die hij zelf neemt tijdens het uitproberen, in plaats van te leren van acties van anderen of oudere versies van zichzelf.

Wat is on-policy eigenlijk?

Stel je voor dat je leert schaken door alleen te kijken naar je eigen partijen — niet naar wat een vriend doet, niet naar oude video's van jezelf van vorige maand, maar puur naar de zetten die je nu aan het maken bent. Dat is in een notendop on-policy leren.

In de AI-wereld betekent on-policy dat een agent (een slim programmaatje dat beslissingen neemt) leert door te evalueren hoe goed de acties zijn die hij op dit moment neemt, volgens zijn huidige strategie. Hij speelt een spel, doet iets, ziet wat het oplevert, en past zijn gedrag direct aan op basis van die ervaring.

Het tegenovergestelde heet off-policy: daar leert de agent ook van acties die hij in het verleden nam (toen hij nog dommer was) of van acties die een ander deed. On-policy is dus meer een "leren door te doen"-aanpak, waarbij je alleen de recente, actuele ervaringen gebruikt.

Hoe werkt het in de praktijk?

Een on-policy agent heeft een policy — een soort intern kompas dat zegt: "in deze situatie doe ik dat". Tijdens het leren voert de agent die policy uit: hij neemt een actie, ziet wat het resultaat is (een beloning of straf), en past zijn policy meteen aan om het de volgende keer beter te doen.

Het cruciale verschil: de agent gebruikt alleen gegevens die hij verzamelt volgens zijn huidige policy. Zodra zijn policy verandert (omdat hij iets geleerd heeft), zijn de oude gegevens eigenlijk niet meer helemaal relevant. Daarom moet hij vaak opnieuw ervaring opdoen.

Een bekende on-policy methode is SARSA (State-Action-Reward-State-Action). De agent kijkt naar: "Ik was in situatie A, deed actie B, kreeg beloning C, kwam in situatie D, en deed daar actie E." Hij leert dan hoe goed actie B was, gebaseerd op wat hij daarna deed (actie E) — allemaal volgens zijn eigen huidige gedrag.

Waarom zou je on-policy gebruiken?

On-policy heeft een groot voordeel: stabiliteit. Omdat je alleen leert van je huidige gedrag, weet je zeker dat je strategie consistent is met de data die je gebruikt. Er is geen verwarring over "hoe deed ik het toen ik nog dom was?"

Dit maakt on-policy geschikt voor situaties waar je gaandeweg veilig wilt leren, zonder al te wilde sprongen te maken. Denk aan:

Robotica: een robot die leert lopen kan beter kleine stapjes maken op basis van zijn huidige manier van bewegen, dan ineens iets proberen wat hij vorige week deed (toen hij nog constant omviel)
Game-AI: een computerspeler in een simulatie die voorzichtig beter wil worden zonder rare trucjes uit het verleden
Persoonlijke assistenten: systemen die zich aanpassen aan jouw gedrag, maar alleen leren van wat je nu doet, niet van wat andere gebruikers deden

Het nadeel: on-policy kan data-intensief zijn. Omdat je oude ervaringen weggooit zodra je policy verandert, moet je constant nieuwe data verzamelen. Dat kost tijd en rekenkracht.

On-policy versus off-policy

Om het verschil helder te maken:

On-policy: "Ik leer door te kijken naar wat ik nu doe." Dataverzameling en leren zijn strak gekoppeld.
Off-policy: "Ik leer ook van wat ik vroeger deed, of van wat een ander deed." Je kunt oude data hergebruiken, wat efficiënter kan zijn.

Voorbeeld: stel je leert autorijden. On-policy is alsof je alleen leert van je huidige ritten — zodra je beter wordt, zijn je vroegere fouten niet meer relevant. Off-policy is alsof je ook leert van dashcam-beelden van andere bestuurders of van je eigen ritten van maanden geleden.

In de praktijk kiezen AI-onderzoekers vaak off-policy (zoals DQN of DDPG) voor games en simulaties waar je veel kan experimenteren. On-policy (zoals PPO, een variant van SARSA) wordt veel gebruikt in robotica en echte omgevingen waar stabiliteit en veiligheid belangrijker zijn dan snelheid.

Waar kom je het tegen?

On-policy algoritmes zitten in:

Robotica-frameworks zoals OpenAI Gym en MuJoCo, waar robots leren lopen of grijpen
Proximal Policy Optimization (PPO), een populaire on-policy methode die je vindt in tools van OpenAI, Stable Baselines3, en Ray RLlib
SARSA, een klassiek on-policy algoritme dat nog steeds wordt onderwezen en gebruikt in onderzoek
Game-AI voor strategie, waar agents voorzichtig hun gedrag aanpassen zonder wilde experimenten

Ga ermee aan de slag

Als je zelf met reinforcement learning experimenteert, kun je on-policy methodes zoals PPO uitproberen in bibliotheken als Stable Baselines3 of Ray RLlib. Begin met een simpele simulatie (een agent die een balletje moet vangen) en let erop hoe stabiel de agent leert vergeleken met off-policy methodes. Je zult merken dat on-policy langzamer voelt, maar minder wild schommelt in prestaties — ideaal als je wilt dat je AI betrouwbaar beter wordt, stap voor stap.

FAQ

Veelgestelde vragen over On-Policy

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is On-Policy?

Een leerstrategie waarbij een AI-agent leert door te kijken naar acties die hij zelf neemt tijdens het uitproberen, in plaats van te leren van acties van anderen of oudere versies van zichzelf.

Waarom is On-Policy belangrijk?

Hoe wordt On-Policy toegepast?

Deel:

Laatst bijgewerkt 4 mei 2026