Direct naar inhoud
Alle termenReinforcement Learning & agents

Wat is Trajectory?

Het pad van acties en situaties die een AI-agent doorloopt tijdens het leren — zoals de route die je aflegt terwijl je leert fietsen, inclusief alle valpartijen en succesmomenten.

Wat is Trajectory

Wat is een trajectory?

Stel je voor: je leert een nieuwe vaardigheid — fietsen, schaken, een spelletje. Je begint ergens, probeert dingen, maakt fouten, leert bij, en komt uiteindelijk (hopelijk) bij je doel. De hele route die je aflegt — van begin tot eind, inclusief alle keuzes, uitkomsten en lessen — dat is wat we in AI een trajectory noemen.

In reinforcement learning werkt het precies zo. Een AI-agent (denk: een robotarm, een game-speler, een zelfrijdende auto) start in een bepaalde situatie, neemt een actie, komt in een nieuwe situatie, neemt weer een actie, enzovoort. Die hele reeks van situaties en acties noemen we een trajectory. Het is het verhaal van wat de agent allemaal heeft meegemaakt tijdens één sessie of episode.

Hoe zit een trajectory in elkaar?

Een trajectory bestaat uit:

  • States (situaties): waar de agent zich bevindt. Bij een schaakspel is dat de stand op het bord. Bij een robotarm is dat de positie van de arm.

  • Actions (acties): wat de agent doet. Een zet, een beweging, een beslissing.

  • Rewards (beloningen): wat de agent terugkrijgt. Punten, minpunten, of gewoon nul als er niks gebeurt.

Een trajectory ziet er dus uit als: situatie → actie → nieuwe situatie → actie → nieuwe situatie... enzovoort, tot het einde (bijvoorbeeld: game over, doel bereikt, tijd op).

Denk aan het als een logboek van een reis. Je noteert waar je was, wat je deed, wat er gebeurde — en aan het eind kun je terugkijken: wat ging goed? Wat ging fout? Waar moet ik de volgende keer anders?

Waarom zijn trajectories belangrijk?

AI-agents leren door ervaring. Maar één actie vertelt je vaak weinig — was die zet goed omdat je daarna won, of was het geluk? Was die fout fataal, of maakte een latere actie het weer goed?

Door naar een hele trajectory te kijken, kan de AI patronen herkennen: "Ah, als ik hier dit doe, dan leidt dat uiteindelijk tot winst" of "Als ik daar die keuze maak, loop ik vast". Trajectories zijn het leermateriaal — zoals jij leert van je hele fietsrit, niet van één stuurbeweging.

In veel reinforcement learning-algoritmes verzamel je eerst een stapel trajectories (de agent speelt tientallen, honderden, duizenden keer), en dan analyseer je die stapel: welke acties leidden tot succes? Welke tot mislukking? Zo verbetert de agent zijn strategie.

Waar kom je het tegen?

Trajectories zijn overal waar AI via trial-and-error leert:

  • Game AI: AlphaGo, OpenAI Five, Dota-bots — ze spelen duizenden potjes en leren van elke trajectory

  • Robotica: een robotarm leert objecten pakken door talloze pogingen (trajectories) te analyseren

  • Zelfrijdende auto's: in simulaties rijdt de AI miljoenen trajectories om te leren anticiperen op verkeerssituaties

  • Chatbots & taalmodellen: bij RLHF (Reinforcement Learning from Human Feedback) worden conversatie-trajectories gebruikt om het model bij te sturen

  • Optimalisatietaken: bijvoorbeeld energiebeheer in datacenters, waarbij elke dag een nieuwe trajectory is

Tools als OpenAI Gym, Stable Baselines, Ray RLlib en DeepMind's Acme maken het mogelijk om trajectories op te slaan, te analyseren en te gebruiken voor training.

Wat kun je ermee?

Als je zelf aan de slag gaat met reinforcement learning, zul je altijd met trajectories werken. Je kunt:

  • Ze visualiseren om te zien waar je agent vastloopt of juist slim handelt

  • Ze gebruiken om je model te trainen ("leer van deze duizend trajectories")

  • Ze filteren: alleen de succesvolle trajectories gebruiken als voorbeeld (dat heet imitation learning)

  • Ze vergelijken: welke strategie levert de beste trajectories op?

Zie het als het analyseren van voetbalwedstrijden: één actie zegt weinig, maar als je de hele wedstrijd terugkijkt, zie je het patroon. Trajectories zijn de wedstrijdverslagen van je AI — en daar leert ze het meest van.

FAQ

Veelgestelde vragen over Trajectory

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Trajectory?

Het pad van acties en situaties die een AI-agent doorloopt tijdens het leren — zoals de route die je aflegt terwijl je leert fietsen, inclusief alle valpartijen en succesmomenten.

Waarom is Trajectory belangrijk?

Stel je voor: je leert een nieuwe vaardigheid — fietsen, schaken, een spelletje. Je begint ergens, probeert dingen, maakt fouten, leert bij, en komt uiteindelijk (hopelijk) bij je doel. De hele route die je aflegt — van begin tot eind, inclusief alle keuzes, uitkomsten en lessen — dat is wat we in AI een trajectory noemen.

Hoe wordt Trajectory toegepast?

In reinforcement learning werkt het precies zo. Een AI-agent (denk: een robotarm, een game-speler, een zelfrijdende auto) start in een bepaalde situatie, neemt een actie, komt in een nieuwe situatie, neemt weer een actie, enzovoort. Die hele reeks van situaties en acties noemen we een trajectory. Het is het verhaal van wat de agent allemaal heeft meegemaakt tijdens één sessie of episode.

Deel: