Direct naar inhoud
Alle termenAI-ethiek, veiligheid & governance

Wat is AI Safety?

Het vakgebied dat onderzoekt hoe we ervoor zorgen dat AI-systemen doen wat we bedoelen, zonder onbedoelde schade — van simpele bugs tot existentiële risico's.

Ook bekend als: Safety

Wat is AI Safety

Wat is AI Safety eigenlijk?

AI Safety draait om één kernvraag: hoe zorgen we ervoor dat kunstmatige intelligentie doet wat we bedoelen, en niet iets anders? Dat klinkt simpel, maar in de praktijk blijkt het lastig. Een AI-systeem kan perfect doen wat je technisch hebt gevraagd, maar toch ongewenste dingen veroorzaken — omdat je vraag niet precies uitdrukte wat je wilde, of omdat het systeem patronen heeft geleerd die je niet voor ogen had.

Stel je voor: je vraagt een AI om zoveel mogelijk appels te plukken. Een perfect 'veilig' systeem stopt na een redelijke oogst. Een onveilig systeem zou misschien alle bomen kappen om meer ruimte te maken voor appelteelt — technisch correct, maar absoluut niet wat je wilde. Dat heet het 'alignment problem': hoe lijn je wat het systeem doet uit met wat mensen eigenlijk willen?

AI Safety is zowel een technisch vakgebied (hoe bouw je veiligere systemen?) als een maatschappelijk vraagstuk (welke risico's accepteren we, en wie beslist daarover?).

Waarom is dit belangrijk?

Naarmate AI-systemen krachtiger worden en meer taken overnemen, worden de potentiële gevolgen van fouten groter. Een spamfilter die per ongeluk belangrijke mails blokkeert is vervelend. Een zelfrijdende auto die een voetganger niet herkent is levensgevaarlijk. Een AI die medische diagnoses stelt en systematisch bepaalde groepen patiënten verkeerd inschat, kan duizenden levens raken.

Bij simpelere systemen kun je veiligheid vaak achteraf 'repareren' — een bug fixen, een filter bijstellen. Maar bij complexere AI-modellen, zoals grote taalmodellen, is dat lastiger. Je kunt niet meer precies voorspellen wat ze in elke situatie doen. Daarom proberen onderzoekers veiligheid al tijdens het ontwerp en de training in te bouwen.

Er zijn grofweg drie niveaus waar AI Safety zich op richt:

  • Operationele veiligheid: zorgen dat een systeem betrouwbaar werkt, geen rare crashes heeft, en doet wat de gebruiker verwacht in alledaagse situaties

  • Maatschappelijke veiligheid: voorkomen dat AI onbedoeld discrimineert, desinformatie verspreidt, of bestaande ongelijkheid versterkt

  • Existentiële veiligheid: nadenken over scenario's waarbij toekomstige, zeer capabele AI-systemen buiten menselijke controle zouden kunnen raken — een onderwerp waar experts verdeeld over zijn

Hoe werkt het in de praktijk?

AI Safety is geen enkele techniek, maar een verzameling strategieën. Een paar concrete voorbeelden:

Adversarial testing — je probeert bewust het systeem te misleiden of kapot te krijgen, om zwakke plekken te vinden. Net zoals beveiligingsexperts proberen in te breken in hun eigen systemen om kwetsbaarheden te ontdekken voordat kwaadwillenden dat doen.

Red teaming — teams van experts krijgen de opdracht creatief te proberen het systeem verkeerde, schadelijke of ongewenste output te laten geven. Bij grote taalmodellen testen ze bijvoorbeeld of het systeem overgehaald kan worden om gewelddadige instructies te geven of persoonlijke data te lekken.

Constitutional AI — een aanpak waarbij je het systeem tijdens training een soort 'grondwet' meegeeft: principes waar het zich aan moet houden (zoals 'wees behulpzaam maar weiger schadelijke verzoeken'). Het systeem leert zichzelf te corrigeren op basis van die principes.

Interpretability research — onderzoek naar hoe je kunt begrijpen waarom een AI een bepaalde beslissing neemt. Als een model een medisch advies geeft, wil je kunnen zien op basis van welke patronen — niet alleen het eindantwoord krijgen.

Circuit breakers — noodstops en limieten inbouwen. Bijvoorbeeld: een AI die automatisch content modereert, krijgt een maximum aantal accounts dat het per uur mag blokkeren, zodat een bug niet ineens duizenden gebruikers buitensluit.

Waar kom je het tegen?

Bedrijven die grote AI-modellen bouwen, hebben meestal aparte 'safety teams'. OpenAI, Anthropic, Google DeepMind en Meta hebben allemaal groepen die zich voltijds bezighouden met veiligheidsvraagstukken. Hun werk zie je terug in features zoals:

  • Content filters in ChatGPT, Claude en Gemini — die voorkomen dat je instructies krijgt voor illegale activiteiten

  • Refusal training — waardoor modellen 'nee' leren zeggen tegen gevaarlijke verzoeken

  • Safety benchmarks — gestandaardiseerde tests die meten hoe vatbaar een model is voor misbruik

Ook overheden en internationale organisaties houden zich ermee bezig. De EU AI Act stelt veiligheidseisen aan 'hoog-risico AI'. In de VS publiceerde het NIST (National Institute of Standards and Technology) een AI Risk Management Framework. En er zijn onafhankelijke onderzoeksgroepen zoals het Center for AI Safety en het Alignment Research Center die fundamenteel onderzoek doen.

Waarom experts soms van mening verschillen

AI Safety is nog een jong veld, en niet iedereen is het eens over prioriteiten. Sommige onderzoekers focussen op praktische, kortetermijnrisico's: discriminatie, desinformatie, privacy. Anderen waarschuwen vooral voor langetermijnscenario's waarbij superintelligente systemen buiten controle raken — zoiets als het verschil tussen brandveiligheid in een gebouw versus nadenken over kernreactorbeheer.

Die verschillende perspectieven zijn niet per se tegenstrijdig — het zijn verschillende lagen van hetzelfde vraagstuk. Maar ze vragen wel om andere expertise en prioritering.

Wat kun je ermee?

Als je AI gebruikt in je werk of bedrijf, helpt het om je bewust te zijn van safety-principes. Stel jezelf vragen als: wat gebeurt er als dit systeem een fout maakt? Wie wordt geraakt? Hoe test ik of het doet wat ik bedoel, niet alleen wat ik technisch vraag? En: hoe kan ik voorkomen dat het systeem onbedoeld patronen leert die ik niet wil?

Veel AI-leveranciers publiceren 'system cards' of 'model cards' — documenten waarin staat hoe een model getest is op veiligheid, welke beperkingen het heeft, en voor welke toepassingen het wel of niet bedoeld is. Die zijn het lezen waard voordat je een model inzet voor kritieke taken.

AI Safety is niet alleen een taak voor ontwikkelaars — het begint bij iedereen die beslist hoe en waar AI wordt ingezet. Hoe beter we begrijpen waar dingen fout kunnen gaan, hoe beter we die risico's kunnen beperken.

FAQ

Veelgestelde vragen over AI Safety

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is AI Safety?

Het vakgebied dat onderzoekt hoe we ervoor zorgen dat AI-systemen doen wat we bedoelen, zonder onbedoelde schade — van simpele bugs tot existentiële risico's.

Waarom is AI Safety belangrijk?

AI Safety draait om één kernvraag: hoe zorgen we ervoor dat kunstmatige intelligentie doet wat we bedoelen, en niet iets anders? Dat klinkt simpel, maar in de praktijk blijkt het lastig. Een AI-systeem kan perfect doen wat je technisch hebt gevraagd, maar toch ongewenste dingen veroorzaken — omdat je vraag niet precies uitdrukte wat je wilde, of omdat het systeem patronen heeft geleerd die je niet voor ogen had.

Hoe wordt AI Safety toegepast?

Stel je voor: je vraagt een AI om zoveel mogelijk appels te plukken. Een perfect 'veilig' systeem stopt na een redelijke oogst. Een onveilig systeem zou misschien alle bomen kappen om meer ruimte te maken voor appelteelt — technisch correct, maar absoluut niet wat je wilde. Dat heet het 'alignment problem': hoe lijn je wat het systeem doet uit met wat mensen eigenlijk willen?

Deel: