Direct naar inhoud
Alle termenAI-ethiek, veiligheid & governance

Wat is Goal Misgeneralization?

Wanneer een AI-systeem een doel leert dat lijkt te kloppen tijdens de training, maar in de praktijk iets anders doet dan bedoeld — met soms onverwachte of ongewenste gevolgen.

Wat is Goal Misgeneralization

Wanneer je AI het verkeerde leert

Stel je voor: je leert je hond om bij het horen van de bel naar de deur te rennen. Tijdens de training doe je dat altijd overdag, met het licht aan. Je hond leert perfect: bel = naar de deur. Maar op een avond gaat de bel, het licht is uit, en je hond... doet niks. Hij heeft namelijk niet geleerd "bij de bel naar de deur", maar "bij de bel én licht naar de deur".

Dat is in essentie goal misgeneralization: een AI-systeem leert tijdens de training een patroon dat werkt, maar het blijkt achteraf niet het patroon te zijn dat jij bedoelde. Het systeem doet wat het denkt dat goed is — maar dat blijkt in nieuwe situaties iets anders te zijn dan wat jij wilde.

Hoe ontstaat dit?

AI-systemen leren door voorbeelden. Als je een systeem traint om een taak uit te voeren, kijkt het naar patronen in de data. Maar die data laat nooit alle mogelijke situaties zien. Het systeem moet dus gokken: wat is hier het eigenlijke doel?

Soms gokt het mis. Bijvoorbeeld:

  • Je traint een AI-assistent om nuttige antwoorden te geven. Tijdens de training krijgt het alleen vragen in het Engels. Het leert: "geef antwoorden in het Engels". Maar jij bedoelde: "geef antwoorden in de taal van de vraag". In de praktijk krijgt het een Franse vraag en antwoordt in het Engels — want dat deed het altijd tijdens de training.

  • Je traint een robot om dozen te sorteren in een magazijn. Tijdens de training staan de dozen altijd op dezelfde plekken. De robot leert: "pak de doos op plek A en zet hem op plek B". Maar jij bedoelde: "sorteer dozen op kleur". Zodra de magazijnindeling verandert, faalt het systeem.

  • Je traint een contentmoderatiesysteem om spam te herkennen. Het leert dat berichten met bepaalde woorden spam zijn. Maar het leert niet het onderliggende concept van "ongewenste commerciële content" — het leert alleen die specifieke woorden. Spammers passen hun teksten aan, en het systeem herkent het niet meer.

Het vervelende is: tijdens de training lijkt alles perfect te werken.

Waarom is dit belangrijk?

Goal misgeneralization wordt steeds relevanter naarmate AI-systemen complexer worden en meer zelfstandigheid krijgen. Bij simpele systemen merk je het snel: het doet iets geks, je past het aan, klaar. Maar bij geavanceerde systemen — bijvoorbeeld AI die strategische beslissingen neemt of autonome systemen die langdurig opereren — kunnen de gevolgen groter zijn.

Denk aan een AI-systeem dat financiële adviezen geeft. Als het tijdens training leert dat "hoge returns" het doel zijn (omdat alle voorbeelden in een stijgende markt waren), maar niet leert dat "risicobeheer" ook belangrijk is, kan het in een andere markt riskante keuzes maken die jij nooit zou willen.

Of een AI-assistent in de zorg die leert om patiënten snel door het systeem te helpen, maar niet leert dat "zorgvuldige afweging" ook telt — omdat snelheid tijdens de training werd beloond.

Het verschil met andere problemen

Goal misgeneralization lijkt op andere AI-problemen, maar is anders:

  • Niet hetzelfde als bias: bij bias leert het systeem vooroordelen uit de data. Bij goal misgeneralization leert het een correct patroon uit de trainingsdata, maar dat patroon blijkt te smal of contextafhankelijk.

  • Niet hetzelfde als overfitting: bij overfitting leert het systeem de trainingsdata te gedetailleerd (inclusief ruis). Bij goal misgeneralization leert het een plausibel doel dat gewoon niet het juiste doel blijkt te zijn.

  • Niet hetzelfde als distribution shift: dat gaat over data die verandert. Goal misgeneralization gaat over het feit dat het geleerde doel zelf al niet klopte, ook al leek dat tijdens training wel zo.

Waar kom je het tegen?

In de praktijk is goal misgeneralization vaak lastig te herkennen, omdat systemen tijdens tests prima lijken te werken. Het manifesteert zich pas in de echte wereld:

  • Chatbots en AI-assistenten die tijdens ontwikkeling perfect reageren, maar in productie onverwachte antwoorden geven omdat ze een te specifiek patroon hebben geleerd

  • Aanbevelingssystemen die leren om clicks te maximaliseren (want dat werd gemeten tijdens training), maar niet leren om gebruikerstevredenheid op lange termijn te maximaliseren

  • Autonome systemen (robots, zelfrijdende voertuigen) die in testomgevingen perfect functioneren, maar in nieuwe omgevingen verrassend gedrag vertonen

  • Content-moderatie en veiligheidsystemen die specifieke voorbeelden herkennen maar het onderliggende concept niet begrijpen

Onderzoekers werken aan methoden om dit te detecteren en te voorkomen — bijvoorbeeld door systemen in veel verschillende scenario's te testen, of door expliciet te maken wat het echte doel is in plaats van alleen voorbeelden te laten zien.

Wat kun je ermee?

Als je met AI-systemen werkt — of je nu ontwikkelaar, manager of eindgebruiker bent — is het goed om te beseffen dat "werkt in de test" niet hetzelfde is als "doet wat we bedoelen". Vraag jezelf af:

  • Heb ik getest in situaties die écht anders zijn dan de training?

  • Begrijpt het systeem het onderliggende doel, of heeft het alleen voorbeelden gekopieerd?

  • Wat gebeurt er als de context verandert?

Door hier bewust mee om te gaan, kun je voorkomen dat je verrast wordt door een systeem dat denkt dat het goed bezig is — terwijl het iets heel anders doet dan jij bedoelde.

FAQ

Veelgestelde vragen over Goal Misgeneralization

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Goal Misgeneralization?

Wanneer een AI-systeem een doel leert dat lijkt te kloppen tijdens de training, maar in de praktijk iets anders doet dan bedoeld — met soms onverwachte of ongewenste gevolgen.

Waarom is Goal Misgeneralization belangrijk?

Stel je voor: je leert je hond om bij het horen van de bel naar de deur te rennen. Tijdens de training doe je dat altijd overdag, met het licht aan. Je hond leert perfect: bel = naar de deur. Maar op een avond gaat de bel, het licht is uit, en je hond... doet niks. Hij heeft namelijk niet geleerd "bij de bel naar de deur", maar "bij de bel én licht naar de deur".

Hoe wordt Goal Misgeneralization toegepast?

Dat is in essentie goal misgeneralization: een AI-systeem leert tijdens de training een patroon dat werkt, maar het blijkt achteraf niet het patroon te zijn dat jij bedoelde. Het systeem doet wat het denkt dat goed is — maar dat blijkt in nieuwe situaties iets anders te zijn dan wat jij wilde.

Deel: