Alle termenReinforcement Learning & agents

Wat is Partially Observable MDP?

Een situatie waarin een AI-agent beslissingen moet nemen zonder alle relevante informatie te kunnen zien — zoals autorijden in de mist.

Beslissen met beperkt zicht

Stel je voor: je speelt verstoppertje in een huis waar alle deuren dicht zijn. Je hoort geluiden, maar je ziet niet precies waar iedereen is. Toch moet je beslissen: welke deur ga je openen? Welke kant ga je op?

Dat is precies wat een Partially Observable MDP is — een situatie waarin een AI-systeem beslissingen moet nemen terwijl het niet alles kan zien of weten wat relevant is. De letters staan voor Markov Decision Process, een wiskundig raamwerk voor besluitvorming, maar het belangrijkste woord is 'Partially Observable': gedeeltelijk waarneembaar.

Hoe werkt het eigenlijk?

Bij reinforcement learning leert een AI-agent door trial-and-error in een omgeving. Vaak gaan we ervan uit dat de agent alles ziet: bij schaak zie je het hele bord, bij Pac-Man zie je waar alle spookjes zijn.

Maar de echte wereld werkt meestal niet zo. Denk aan:

Een zelfrijdende auto die niet door andere auto's heen kan kijken — is er een voetganger achter die vrachtwagen?
Een medisch systeem dat een diagnose stelt op basis van symptomen, maar niet rechtstreeks kan 'zien' wat er in je lichaam gebeurt
Een robot die een object moet pakken, maar niet precies weet hoe zwaar het is of waar het zwaartepunt ligt
Een aandelen-handelssysteem dat moet beslissen op basis van publieke informatie, maar niet weet wat andere traders van plan zijn

De agent moet dus beslissingen nemen op basis van onvolledige informatie. Dat doet hij door een soort 'geloofsmodel' bij te houden — een inschatting van wat er waarschijnlijk gaande is, gebaseerd op alle signalen die hij wél krijgt.

Bij autorijden betekent dat: als je een voetganger uit het zicht verliest achter een geparkeerde auto, moet je systeem onthouden dat die voetganger waarschijnlijk nog steeds daar is, ook al zie je hem tijdelijk niet.

Waarom is dit lastig?

Beslissen met volledige informatie is al complex genoeg. Maar bij een Partially Observable MDP komen er extra uitdagingen bij:

Je moet onzekerheid managen — wat is waarschijnlijk waar, gegeven wat je ziet?
Je moet informatie verzamelen — soms is de beste actie om eerst meer te observeren in plaats van meteen te handelen
Je moet geschiedenis onthouden — wat je eerder zag, helpt je nu inschatten wat er gaande is

Het verschil met een volledig observeerbare situatie is enorm. Bij schaken weet je precies wat de stand is. Bij poker niet — je ziet je eigen kaarten, maar moet de kaarten van anderen inschatten op basis van hun gedrag. Poker is een klassiek voorbeeld van een Partially Observable MDP.

Een voorbeeld uit de praktijk

Neem een robotstofzuiger in jouw huis. Hij heeft sensoren, maar die zijn beperkt: hij voelt wanneer hij tegen iets aanstoot, hij meet afstand tot objecten, maar hij heeft geen perfect 3D-model van je hele woning in zijn 'hoofd'.

Terwijl hij rijdt, bouwt hij een inschatting op: "Hier was waarschijnlijk een muur, daar stond een stoel." Maar als iemand ondertussen die stoel verzet, weet de robot dat niet — totdat hij er weer tegenaan rijdt en zijn model moet bijstellen.

Deze onzekerheid maakt het plannen lastiger. De robot moet niet alleen nadenken over "wat is de beste route?", maar ook over "hoe zeker ben ik eigenlijk van mijn kaart?" en "moet ik eerst even verkennen voordat ik de snelste route neem?"

Waar kom je het tegen?

Partially Observable MDPs zijn overal waar AI met onzekerheid te maken heeft:

Robotica — robots in fabrieken, magazijnen of zelfs in de ruimte (Mars-rovers)
Autonome voertuigen — niet alleen auto's, maar ook drones en schepen
Gezondheidszorg — systemen die behandelingen adviseren op basis van symptomen en testresultaten
Financiële trading — algoritmes die beleggen zonder alle marktinformatie te kennen
Game AI — personages in videogames die menselijk gedrag moeten inschatten
Assistent-systemen zoals slimme speakers die moeten raden wat je bedoelt zonder je gedachten te kunnen lezen

Als je hoort dat een AI-systeem "in onzekere omstandigheden opereert" of "met incomplete informatie werkt", dan heb je vaak met een Partially Observable MDP te maken.

Wat betekent dit voor jou?

Als je AI inzet in de echte wereld — of dat nu een chatbot is die klanten helpt of een voorspelmodel voor je voorraad — dan werk je eigenlijk altijd met gedeeltelijk observeerbare situaties. Je systeem ziet nooit álles.

Dat vraagt om een ontwerp dat omgaat met onzekerheid: je AI moet niet alleen beslissen, maar ook zijn eigen onzekerheid erkennen. Soms is het antwoord niet "doe dit", maar "ik weet het niet zeker, vraag eerst dit".

Denk daaraan als je AI-toepassingen evalueert: hoe gaat het systeem om met situaties waar informatie ontbreekt? Kan het aangeven wanneer het twijfelt? Of doet het alsof het alles weet, terwijl het door de mist navigeert?

FAQ

Veelgestelde vragen over Partially Observable MDP

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Partially Observable MDP?

Een situatie waarin een AI-agent beslissingen moet nemen zonder alle relevante informatie te kunnen zien — zoals autorijden in de mist.

Waarom is Partially Observable MDP belangrijk?

Hoe wordt Partially Observable MDP toegepast?

Deel:

Laatst bijgewerkt 4 mei 2026