Alle termenReinforcement Learning & agents

Wat is AI Policy?

De 'strategie' van een AI-agent: een set regels die bepaalt welke actie de agent kiest in elke situatie. Net zoals jij een beleid hebt voor 'wat doe ik als het regent?' heeft een agent een policy voor 'wat doe ik als ik dit zie?'

Ook bekend als: Policy, policy, beleid

Wat is een AI Policy eigenlijk?

Stel je voor: je speelt een bordspel en je hebt een eigen spelstrategie. "Als mijn tegenstander aanvalt, verdedig ik. Als ik veel punten heb, speel ik defensief." Die verzameling regels — dat is in essentie wat een policy is voor een AI-agent.

Een AI Policy (soms gewoon 'policy' of 'beleid' genoemd) is de strategie die een AI-agent volgt om te beslissen welke actie hij neemt in een bepaalde situatie. Het is het antwoord op de vraag: "Wat moet ik nu doen?" De policy koppelt elke mogelijke state (situatie waarin de agent zich bevindt) aan een actie (wat de agent doet).

Bij een schaakmachine bijvoorbeeld: de state is de huidige stand van het bord, de policy bepaalt welke zet de machine doet. Bij een zelfrijdende auto: de state is wat de sensoren zien (voetganger links, auto rechts, stoplicht rood), de policy bepaalt of de auto remt, gas geeft of bijstuurt.

Hoe werkt zo'n policy?

Er zijn twee hoofdvormen:

Deterministische policy: voor elke situatie één vaste actie. "Als stoplicht rood is, dan remmen." Altijd hetzelfde antwoord bij dezelfde input. Simpel en voorspelbaar.

Stochastische policy: voor elke situatie een kansverdeling over mogelijke acties. "Als tegenstander aanvalt: 70% kans op verdedigen, 30% kans op counter-aanval." Dit geeft flexibiliteit en voorkomt dat de agent te voorspelbaar wordt — handig in competitieve omgevingen zoals games.

De policy wordt meestal geleerd via reinforcement learning: de agent probeert verschillende acties uit, krijgt feedback (beloning of straf), en past zijn policy aan. Na duizenden pogingen heeft hij een policy die steeds betere keuzes maakt.

Een voorbeeld uit de praktijk

Neem een robotstofzuiger. Zijn policy bepaalt: "Als ik een obstakel detecteer, draai 45 graden en rij door. Als batterij onder 20%, rij naar laadstation. Als een gebied schoon is, ga naar een ander gebied."

Die policy is niet door een programmeur ingevoerd met harde regels, maar geleerd door de robot zelf — door miljoenen simulaties waarin hij leerde wat werkt en wat niet. Het resultaat: een strategie die in bijna elke woonkamer effectief blijkt.

Of denk aan een chatbot die klantvragen beantwoordt. Zijn policy bepaalt: bij vraag over prijs → geef prijsinformatie, bij klacht → schakel door naar mens, bij compliment → bedank en vraag of er nog iets is. Ook hier: geleerd gedrag, niet hard gecodeerd.

Waar kom je het tegen?

Je ziet policies in actie bij:

Game AI — bots in videogames zoals Dota 2 of StarCraft (OpenAI Five, DeepMind AlphaStar) hebben complexe policies die bepalen wanneer ze aanvallen, verdedigen of vluchten
Robotica — industriële robots, drones, bezorgrobots leren policies voor navigatie en taakuitvoering
Aanbevelingssystemen — de policy bepaalt welk item of advertentie als volgende getoond wordt, afhankelijk van je gedrag
Zelfrijdende auto's — de policy dicteert remmen, sturen, accelereren op basis van de omgeving
Chatbots en assistenten — policies bepalen welke respons of actie volgt op jouw vraag

In veel gevallen merk je de policy niet bewust — je ziet alleen het gedrag. Maar achter de schermen is het de kern van hoe de agent zijn werk doet.

Waarom is dit relevant voor jou?

Als je met AI-agents werkt of nadenkt over inzet ervan in je organisatie, is het goed te weten dat hun gedrag niet "magisch" is, maar gebaseerd op een policy die je kunt evalueren en bijsturen. Een policy kan getraind worden op jouw data, jouw doelen, jouw context. Begrijp je hoe de policy werkt, dan kun je beter beoordelen of de agent doet wat je wilt — en hoe je hem kunt verbeteren als dat niet zo is.