Direct naar inhoud
Alle termenReinforcement Learning & agents

Wat is SARSA?

Een leeralgoritme waarbij een AI-agent leert door te kijken naar wat hij deed, wat hij kreeg, en wat hij daarna deed — niet wat hij had kunnen doen.

Wat is SARSA

Wat is SARSA eigenlijk?

SARSA is een manier waarop een AI-agent leert door te experimenteren in een omgeving. De naam is een afkorting van de vijf dingen waar het algoritme naar kijkt: State (situatie), Action (actie), Reward (beloning), State (nieuwe situatie), Action (nieuwe actie).

Stel je voor: je leert fietsen. Je zit op de fiets (situatie), trapt (actie), blijft overeind (beloning), zit nog steeds op de fiets (nieuwe situatie), en trapt weer door (nieuwe actie). SARSA leert door precies te kijken naar wat je werkelijk deed, niet naar wat je theoretisch had kunnen doen.

Hoe werkt het in de praktijk?

Een SARSA-agent beweegt door een omgeving — denk aan een robotarm die objecten moet pakken, of een spelpersonage dat een doolhof moet vinden. Bij elke stap:

  • Kijkt de agent waar hij is (State)

  • Doet iets (Action)

  • Krijgt feedback: positief of negatief (Reward)

  • Komt ergens anders terecht (nieuwe State)

  • Kiest meteen de volgende actie (nieuwe Action)

Het bijzondere: SARSA leert van wat de agent echt doet, inclusief zijn fouten en voorzichtigheid. Als de agent een riskante route vermijdt omdat hij daar eerder last had, dan leert SARSA dat gedrag mee.

Voorzichtig of optimistisch?

Het verschil met sommige andere leermethoden zit in de filosofie. SARSA is wat voorzichtiger — het leert van het pad dat je werkelijk bewandelt. Stel je bent een robot die een magazijn moet navigeren. Als je tijdens het leren altijd een veilige route kiest omdat je nog onzeker bent, dan leert SARSA die veilige route als de standaard.

Een verwant algoritme (Q-Learning) daarentegen kijkt altijd naar de beste theoretische actie, ook als je die in werkelijkheid niet neemt. Dat maakt Q-Learning wat optimistischer, maar soms ook riskanter tijdens het leren.

Waar kom je het tegen?

SARSA wordt gebruikt in situaties waar een agent moet leren door te doen, vooral als veiligheid belangrijk is:

  • Robotica — een robotarm die objecten moet sorteren zonder andere apparatuur te beschadigen

  • Game AI — personages die leren bewegen in een spelwereld, waarbij ze niet constant tegen muren moeten botsen

  • Verkeersregeling — systemen die verkeerslichten aansturen en leren van daadwerkelijke verkeersstromen

  • Energiebeheer — slimme thermostaten die leren van jouw echte keuzes, niet van theoretische optimalisaties

Je vindt SARSA vooral in academische onderzoeksomgevingen en in robotica-labs. Het is minder bekend bij het grote publiek dan deep learning, maar speelt een belangrijke rol in reinforcement learning-onderzoek.

Waarom zou je hier iets aan hebben?

Als je begrijpt hoe SARSA werkt, zie je beter hoe AI-systemen leren van ervaring. Veel moderne AI — van robots tot game-personages — combineert verschillende leermethoden. SARSA laat zien dat er niet één manier is om te leren: soms wil je dat een systeem leert van wat het werkelijk doet (inclusief fouten), soms wil je dat het leert van de beste theoretische keuze.

Voor bedrijven die met robotica of autonome systemen werken, is het goed om te weten dat SARSA-achtige methoden vaak veiliger zijn tijdens het leerproces — ze nemen minder wilde risico's. Voor ontwikkelaars: SARSA is een bouwsteen in moderne reinforcement learning-toolkits zoals Stable-Baselines3 en OpenAI Gym.

Wil je meer weten over hoe AI leert door te doen? Kijk dan ook eens naar termen als Reinforcement Learning, Q-Learning en Policy Gradient.

FAQ

Veelgestelde vragen over SARSA

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is SARSA?

Een leeralgoritme waarbij een AI-agent leert door te kijken naar wat hij deed, wat hij kreeg, en wat hij daarna deed — niet wat hij had kunnen doen.

Waarom is SARSA belangrijk?

SARSA is een manier waarop een AI-agent leert door te experimenteren in een omgeving. De naam is een afkorting van de vijf dingen waar het algoritme naar kijkt: State (situatie), Action (actie), Reward (beloning), State (nieuwe situatie), Action (nieuwe actie).

Hoe wordt SARSA toegepast?

Stel je voor: je leert fietsen. Je zit op de fiets (situatie), trapt (actie), blijft overeind (beloning), zit nog steeds op de fiets (nieuwe situatie), en trapt weer door (nieuwe actie). SARSA leert door precies te kijken naar wat je werkelijk deed, niet naar wat je theoretisch had kunnen doen.

Deel: