Direct naar inhoud
Alle termenReinforcement Learning & agents

Wat is Off-Policy?

Een leerprincipe waarbij een AI-agent leert van acties die hij in het verleden deed, ook als hij nu een andere strategie volgt — alsof je leert schaak door oude partijen te analyseren.

Wat is Off-Policy

Wat is Off-Policy?

Off-Policy is een manier waarop een AI-agent leert van ervaringen die niet per se passen bij zijn huidige strategie. Stel je voor: je leert autorijden door video's te bekijken van anderen die rijden — ook van chauffeurs die anders rijden dan jij nu zou doen. Je haalt er toch bruikbare lessen uit, ook al zou jij sommige keuzes anders maken.

Bij Off-Policy learning verzamelt een AI ervaringen (bijvoorbeeld tijdens een game, of bij het besturen van een robot), en leert daar later van — ook als die ervaringen kwamen uit een fase waarin de AI nog heel anders handelde. Het mooie: je kunt oude data hergebruiken. Je hoeft niet elke keer opnieuw te experimenteren.

Het tegenovergestelde heet On-Policy: daar leert de AI alleen van acties die precies passen bij zijn huidige aanpak. Dat is soms veiliger, maar ook minder flexibel.

Hoe werkt het eigenlijk?

Een Off-Policy algoritme doet twee dingen tegelijk:

  • Gedrag vastleggen — de AI voert acties uit (soms willekeurig, soms volgens een oude strategie) en slaat op wat er gebeurde: welke actie, welke situatie, welk resultaat.

  • Leren van die data — later analyseert de AI die opgeslagen ervaringen en verbetert zijn strategie, ook al zou hij nu misschien andere keuzes maken.

Een klassiek voorbeeld is Q-learning, een van de bekendste Off-Policy methodes. Daarbij bouwt de AI een soort intern scorebord op: welke actie levert in welke situatie de beste langetermijnuitkomst? Die scores worden bijgewerkt op basis van oude ervaringen, ook als de AI inmiddels een heel andere speelstijl heeft.

Omdat je oude data kunt hergebruiken, kun je efficiënter leren. Je hooft niet telkens opnieuw te proberen — je leert ook van mislukkingen uit het verleden.

Waarom zou jij hier iets aan hebben?

Off-Policy learning is vooral handig in situaties waar experimenteren duur of gevaarlijk is:

  • Robotica — een robot die leert lopen of grijpen kan leren van eerdere pogingen, ook mislukte. Je hoeft niet elke keer het hele leerproces opnieuw te starten.

  • Spelontwikkeling — AI-tegenstanders in games leren van duizenden gespeelde potjes, ook van spelers met heel verschillende strategieën.

  • Zelfrijdende auto's — simulaties en testdata van menselijke chauffeurs worden hergebruikt om betere beslissingen te trainen, zonder dat de AI elke situatie zelf hoeft mee te maken.

  • Aanbevelingssystemen — een platform leert welke aanbevelingen werken door te kijken naar wat gebruikers in het verleden deden, ook als het algoritme inmiddels aangepast is.

Het grote voordeel: je kunt leren van een breed scala aan ervaringen, niet alleen van wat je nú zou doen. Dat maakt het leerproces sneller en gevarieerder.

Waar kom je het tegen?

Off-Policy methodes zitten in veel moderne AI-toepassingen, vooral waar reinforcement learning wordt ingezet:

  • Deep Q-Network (DQN) — gebruikt door DeepMind om games te leren spelen, combineert Q-learning met neural networks

  • Soft Actor-Critic (SAC) — populair algoritme voor robotica en simulaties

  • Dopamine, Stable-Baselines3, RLlib — open-source bibliotheken waarmee developers Off-Policy algoritmes kunnen toepassen

  • AlphaGo, AlphaZero — combineren On- en Off-Policy leren om strategische spellen te beheersen

Je ziet het ook terug in experimentele toepassingen zoals energiebeheer (slimme thermostaten die leren van historisch gebruik) en financiële trading-bots (die leren van historische marktdata).

Wat kun je er nu mee?

Als je met AI-agents werkt — bijvoorbeeld in simulaties, robotica of game-ontwikkeling — kan Off-Policy learning je veel tijd en rekenkracht schelen. In plaats van eindeloos te experimenteren, kun je leren van bestaande data. Wil je weten hoe dat verschilt van On-Policy? Kijk dan ook eens naar termen als Policy Gradient en Temporal Difference Learning — dat helpt je de keuze tussen beide benaderingen beter te begrijpen.

FAQ

Veelgestelde vragen over Off-Policy

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Off-Policy?

Een leerprincipe waarbij een AI-agent leert van acties die hij in het verleden deed, ook als hij nu een andere strategie volgt — alsof je leert schaak door oude partijen te analyseren.

Waarom is Off-Policy belangrijk?

Off-Policy is een manier waarop een AI-agent leert van ervaringen die niet per se passen bij zijn huidige strategie. Stel je voor: je leert autorijden door video's te bekijken van anderen die rijden — ook van chauffeurs die anders rijden dan jij nu zou doen. Je haalt er toch bruikbare lessen uit, ook al zou jij sommige keuzes anders maken.

Hoe wordt Off-Policy toegepast?

Bij Off-Policy learning verzamelt een AI ervaringen (bijvoorbeeld tijdens een game, of bij het besturen van een robot), en leert daar later van — ook als die ervaringen kwamen uit een fase waarin de AI nog heel anders handelde. Het mooie: je kunt oude data hergebruiken. Je hoeft niet elke keer opnieuw te experimenteren.

Deel: