Alle termenAI-ethiek, veiligheid & governance

Wat is Adversarial Example?

Een slim gemanipuleerde input die een AI-model misleidt om een verkeerde conclusie te trekken — vaak onzichtbaar voor het menselijk oog.

Wat is een Adversarial Example eigenlijk?

Stel je voor: je toont een foto van een stop-bord aan een zelfrijdende auto. Voor jou ziet het er gewoon uit als een stop-bord. Maar iemand heeft er onzichtbare pixelwijzigingen in aangebracht — zo subtiel dat jij ze niet opmerkt — waardoor de AI denkt dat het een 50 km/u-bord is. Dat is een adversarial example: een input die opzettelijk is aangepast om een AI-model te misleiden.

Het bijzondere is dat deze aanpassingen vaak minuscuul zijn. Bij een plaatje kunnen het pixels zijn die een fractie lichter of donkerder worden gemaakt. Bij tekst kan het gaan om het vervangen van één letter door een visueel identiek Unicode-teken. Voor mensen blijft de betekenis volkomen helder, maar het AI-model raakt volledig in de war.

Dit verschijnsel laat zien dat AI-modellen de wereld fundamenteel anders 'zien' dan wij. Waar jij een context begrijpt en naar betekenis kijkt, zoekt een neuraal netwerk naar statistische patronen in data. En die patronen kun je bewust verstoren.

Hoe werkt zo'n misleiding precies?

Een adversarial example ontstaat meestal door een methode die je 'adversarial attack' noemt. De aanvaller neemt een normale input — bijvoorbeeld een foto van een kat — en past die systematisch aan. Elke aanpassing is gericht op het vergroten van de kans dat het model een verkeerde classificatie maakt, bijvoorbeeld 'hond' in plaats van 'kat'.

De truuk zit hem in de manier waarop neurale netwerken werken. Ze leren patronen door naar enorme hoeveelheden voorbeelden te kijken, maar ze begrijpen niet echt wat een kat of hond is. Ze herkennen combinaties van pixels, vormen en texturen die statistisch vaak voorkomen bij een bepaald label. Als je precies weet welke pixels het model belangrijk vindt, kun je daar gericht aan draaien.

Veel adversarial attacks gebruiken de interne werking van het model zelf om te bepalen welke aanpassingen het meest effectief zijn. Het is een beetje alsof je de zwakke plek in een slot vindt door te voelen waar de pinnen zitten — alleen dan digitaal.

Waarom is dit belangrijk voor jou?

Adversarial examples zijn niet alleen een technische curiositeit. Ze hebben directe gevolgen voor de veiligheid en betrouwbaarheid van AI-systemen in de praktijk:

Zelfrijdende auto's kunnen verkeersborden verkeerd interpreteren als iemand bewust stickers of projecties op borden plaatst
Gezichtsherkenning bij toegangscontrole kan worden omzeild met speciale brillen of make-up patronen
Spamfilters kunnen worden misleid door tekstjes die er normaal uitzien maar net genoeg zijn aangepast
Contentmoderatie op sociale media kan schadelijke content missen doordat er subtiele wijzigingen in zitten

Voor bedrijven die AI gebruiken is dit een serieus aandachtspunt. Als jouw klantenservice-chatbot door simpele trucjes verkeerde antwoorden geeft, of je fraudedetectie systeem bepaalde patronen mist door gerichte manipulatie, heb je een probleem.

Een concreet voorbeeld uit de praktijk

Onderzoekers hebben in 2018 laten zien dat je een zelfrijdende Tesla kunt misleiden door simpelweg drie kleine stickers op een stop-bord te plakken. Het bord bleef voor mensen duidelijk herkenbaar als stop-bord, maar het camerasysteem van de auto classificeerde het als een 45 mph-bord. De auto zou dus doorrijden waar hij had moeten stoppen.

Een ander bekend voorbeeld: door bepaalde geluidsfrequenties toe te voegen aan een audio-opname — onhoorbaar voor mensen — kun je spraakherkenningssystemen commando's laten uitvoeren die er niet echt zijn. Iemand zou bijvoorbeeld via een podcast onhoorbare commando's kunnen versturen naar slimme speakers in huiskamers.

In het bedrijfsleven zijn er gevallen bekend waarbij spammers systematisch woorden aanpasten (bijvoorbeeld door een 'o' te vervangen door een Cyrillisch karakter dat er identiek uitziet) om spamfilters te omzeilen. Technisch gezien zijn dat ook adversarial examples.

Waar kom je het tegen?

De bescherming tegen adversarial examples wordt ontwikkeld in:

Adversarial training — modellen trainen met bewust gemanipuleerde voorbeelden zodat ze robuuster worden
Computer vision security — extra validatielagen in beeldherkenning voor zelfrijdende auto's, bewakingscamera's en toegangscontrole
Content moderation tools — filters die niet alleen naar inhoud kijken maar ook naar verdachte patronen van manipulatie
AI red teaming — teams die bewust proberen AI-systemen te misleiden om zwakheden te vinden voordat kwaadwillenden dat doen
Model hardening — technieken om neurale netwerken minder gevoelig te maken voor subtiele inputveranderingen

Ook in academisch onderzoek speelt dit een grote rol. Er verschijnen regelmatig papers over nieuwe vormen van attacks én nieuwe verdedigingsmethoden.

Wat kun jij ermee?

Als je AI inzet in je organisatie, vraag dan expliciet naar de robuustheid van het systeem. Hoe gaat het om met onverwachte of gemanipuleerde input? Is er getest op adversarial examples?

Bij kritische toepassingen — denk aan veiligheid, toegangscontrole of financiële beslissingen — is het verstandig om niet blind te vertrouwen op één AI-model. Combineer het met andere checks, menselijke beoordeling bij twijfelgevallen, of meerdere modellen die elkaar valideren.

En als je nieuwsgierig bent: er zijn online demo's waar je zelf kunt experimenteren met adversarial examples. Je ziet dan uit eerste hand hoe een model plots compleet de fout in gaat door een aanpassing die jij nauwelijks opmerkt. Het maakt direct duidelijk waarom AI-veiligheid meer is dan alleen goede accuracy-scores.

FAQ

Veelgestelde vragen over Adversarial Example

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Adversarial Example?

Een slim gemanipuleerde input die een AI-model misleidt om een verkeerde conclusie te trekken — vaak onzichtbaar voor het menselijk oog.

Waarom is Adversarial Example belangrijk?

Hoe wordt Adversarial Example toegepast?

Deel:

Laatst bijgewerkt 4 mei 2026