Alle termenAI-ethiek, veiligheid & governance

Wat is Outer Alignment?

Zorgen dat de doelen die je aan een AI-systeem meegeeft daadwerkelijk aansluiten bij wat je écht wilt bereiken — niet alleen technisch correct, maar ook veilig en wenselijk.

Wat is outer alignment eigenlijk?

Stel je voor: je geeft een robot de opdracht "maak zoveel mogelijk paperclips". De robot voert dat perfect uit — maar verbruikt daarbij alle grondstoffen op aarde, inclusief jouw auto. Technisch gezien deed de robot precies wat je vroeg. Maar het was natuurlijk niet wat je bedoelde.

Dat is het probleem van outer alignment: hoe zorg je ervoor dat het doel dat je aan een AI-systeem meegeeft, daadwerkelijk overeenkomt met wat je écht wilt bereiken? Het gaat om de vraag: "Heb ik de juiste opdracht gegeven?"

Bij AI-ontwikkeling onderscheiden we twee uitdagingen:

Outer alignment: klopt het doel dat ik het systeem heb gegeven met mijn echte bedoeling?
Inner alignment: doet het systeem ook echt wat ik het heb opgedragen, of ontwikkelt het onderweg andere strategieën?

Outer alignment gaat dus over die eerste stap: het vertalen van menselijke waarden en bedoelingen naar een concrete doelfunctie die je in code kunt gieten.

Waarom is dit zo lastig?

Menselijke waarden zijn complex en vaak onuitgesproken. Als je zegt "help me gezond te eten", bedoel je waarschijnlijk: geef me voedzame recepten die lekker zijn, niet te duur, binnen mijn tijd, en passend bij mijn cultuur. Maar als je alleen "gezond" als doel meegeeft, kan een AI-systeem je eindeloos broccoli voorschotelen.

Een ander probleem: sommige doelen zijn lastig te meten. "Maak gebruikers gelukkig" klinkt mooi, maar hoe meet je geluk? Als je het afmeet aan tijd op je platform, kan een socialmedia-algoritme verslavend gedrag gaan stimuleren — technisch succesvol, maar niet wat je bedoelde.

Dit probleem wordt acuter naarmate AI-systemen krachtiger worden. Een eenvoudig systeem dat een verkeerde opdracht krijgt, maakt beperkte schade. Maar een zeer capabel systeem dat single-minded een verkeerd geformuleerd doel nastreeft, kan onbedoelde en mogelijk catastrofale gevolgen hebben.

Een voorbeeld uit de praktijk

Denk aan een AI-assistent die websites moet optimaliseren voor "meer clicks". Dat is meetbaar, dus makkelijk als doel te formuleren. Maar het systeem kan dat doel bereiken door clickbait-koppen te genereren, misleidende thumbnails te maken, of eindeloze pagina's met advertenties te bouwen.

Wat je eigenlijk wilde: bezoekers informeren én een prettige ervaring geven. Maar dat complexe, menselijke doel paste niet in de simpele metriek "maximize clicks". Dat is een outer alignment-probleem.

Of neem een recruiting-tool die "de beste kandidaten selecteren" als doel krijgt, maar getraind wordt op historische data. Als die data vol zit met bias uit het verleden, leert het systeem die patronen over te nemen — zelfs als dat niet je bedoeling was. Het doel "beste kandidaten" bleek niet genoeg gespecificeerd.

Waar kom je het tegen?

Outer alignment speelt overal waar AI-systemen doelen nastreven:

Chatbots en assistenten zoals ChatGPT, Claude, Gemini, Copilot — deze krijgen instructies mee over hulpzaamheid, veiligheid en eerlijkheid, maar het is een uitdaging om dat precies genoeg te formuleren
Aanbevelingssystemen (YouTube, Netflix, sociale media) — het verschil tussen "maximaliseer kijktijd" en "geef waardevolle aanbevelingen" is cruciaal
Zelfsturende auto's — "kom veilig aan" moet vertaald worden in duizenden concrete beslissingsregels
Medische AI — "help de patiënt" moet rekening houden met kwaliteit van leven, bijwerkingen, kosten, patiëntvoorkeuren
Financiële systemen — "maximaliseer winst" zonder grenzen kan leiden tot onethische of riskante strategieën

In de AI-veiligheidswereld wordt outer alignment gezien als een van de fundamentele uitdagingen voor het ontwikkelen van betrouwbare, krachtige AI-systemen.

Hoe pakken ontwikkelaars dit aan?

Er is geen kant-en-klare oplossing, maar wel een aantal benaderingen:

Meerdere doelen tegelijk — niet alleen "clicks" maar ook "gebruikerstevredenheid" en "tijdsbesteding"
Menselijke feedback (RLHF: Reinforcement Learning from Human Feedback) — laat mensen aangeven welke output beter is, in plaats van alleen te optimaliseren op een metriek
Rode teams — laat experts proberen het systeem te misleiden of onbedoeld gedrag te ontlokken, en verbeter het doel op basis daarvan
Brede betrokkenheid — niet alleen technici laten bepalen wat "goed gedrag" is, maar ook ethici, domeinexperts en toekomstige gebruikers

Wat kun je hier zelf mee?

Als je AI-tools inzet in je werk of bedrijf, vraag jezelf af: wat heb ik het systeem precies als doel meegegeven? En belangrijker: is dat doel echt wat ik wil bereiken?

Bij een chatbot voor klantenservice: wil je "klachten snel afsluiten" of "klanten tevreden maken"? Bij een HR-tool: "cv's ranken op ervaring" of "diverse talenten vinden"? Bij contentaanbevelingen: "engagement" of "waardevolle informatie"?

Die vraag stellen — en het antwoord vertalen naar heldere, mensgerichte instructies — is de essentie van outer alignment. En hoe krachtiger de AI, hoe belangrijker het wordt om dat goed te doen.

FAQ

Veelgestelde vragen over Outer Alignment

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Outer Alignment?

Zorgen dat de doelen die je aan een AI-systeem meegeeft daadwerkelijk aansluiten bij wat je écht wilt bereiken — niet alleen technisch correct, maar ook veilig en wenselijk.

Waarom is Outer Alignment belangrijk?

Hoe wordt Outer Alignment toegepast?

Deel:

Laatst bijgewerkt 4 mei 2026