Direct naar inhoud
Alle termenData, evaluatie & metrics

Wat is Data Augmentation?

Kunstmatig uitbreiden van je trainingsdataset door bestaande voorbeelden aan te passen — zodat je AI-model meer variatie ziet en beter leert generaliseren.

Wat is Data Augmentation

Wat is data augmentation eigenlijk?

Stel je voor: je wilt een AI-model leren om honden te herkennen, maar je hebt maar 100 foto's van honden. Dat is weinig — het model ziet telkens dezelfde honden in dezelfde houdingen, met hetzelfde licht. Data augmentation is de truc om die 100 foto's kunstmatig uit te breiden door kleine aanpassingen te maken: je draait een foto 15 graden, spiegelt hem horizontaal, maakt hem iets donkerder, of knipt een stukje van de rand af. Opeens heb je 1.000 of 10.000 varianten — allemaal net even anders, maar nog steeds herkenbaar als hond.

Het doel? Je model leert niet gewoon "deze specifieke foto = hond", maar "honden kunnen er van links, van rechts, in helder licht of schaduw, gedraaid of rechtop uitzien". Dat maakt het model robuuster: het herkent straks ook honden die het nog nooit gezien heeft.

Data augmentation wordt vooral gebruikt in computer vision (beeldherkenning) en natural language processing (tekstverwerking), maar het principe werkt overal waar je trainingdata hebt.

Hoe werkt het in de praktijk?

Bij beelden zijn veelvoorkomende trucjes:

  • Draaien, spiegelen, verschuiven — dezelfde foto, net een ander perspectief

  • Kleur aanpassen — helderheid, contrast, verzadiging veranderen

  • Bijsnijden of uitrekken — een stukje van de rand eraf, of de foto iets platter maken

  • Ruis toevoegen — kleine stippels of wazigheid, alsof de foto met een oude camera gemaakt is

  • Cutout of masking — een vierkantje van de foto zwart maken, zodat het model leert om ook met ontbrekende stukjes te werken

Bij tekst wordt het creatiever:

  • Synoniemen vervangen — "geweldig" wordt "fantastisch", betekenis blijft hetzelfde

  • Zinnen omdraaien — "De hond rent naar huis" wordt "Naar huis rent de hond"

  • Woorden weglaten of invoegen — een stopwoord toevoegen of juist verwijderen

  • Back-translation — je vertaalt een Nederlandse zin naar het Engels en weer terug, dan krijg je vaak een nét andere formulering

Bij audio (spraakherkenning, muziekclassificatie):

  • Snelheid veranderen — iemand praat net iets sneller of langzamer

  • Achtergrondgeluid toevoegen — verkeer, geroezemoes, wind

  • Pitch shiften — de stem net iets hoger of lager maken

Waarom zou jij hier iets aan hebben?

Als je zelf een AI-model traint, is gebrek aan data vaak het grootste probleem. Je hebt misschien 200 voorbeelden, maar voor een goed werkend model heb je er duizenden nodig. Data augmentation is een efficiënte manier om meer uit je bestaande data te halen — zonder dat je zelf duizenden nieuwe voorbeelden hoeft te verzamelen of te labelen.

Het helpt ook tegen overfitting: als je model de trainingsdata uit het hoofd leert in plaats van de onderliggende patronen te begrijpen. Door variatie toe te voegen, dwingt je het model om flexibeler te worden — het kan niet gewoon één specifieke foto onthouden, want elke keer ziet die er net iets anders uit.

Een voorbeeld: stel je traint een model om krentenbollen te herkennen in een bakkerij-app. Je hebt 50 foto's. Zonder augmentation leert het model misschien "krentenbol = altijd van bovenaf gefotografeerd, met fel licht". Met augmentation — draaien, dimmen, van opzij fotograferen — leert het "krentenbol = rond broodje met donkere vlekjes, ongeacht hoek of licht". Dat werkt beter in de echte wereld, waar klanten vanuit allerlei hoeken een foto maken.

Waar kom je het tegen?

Data augmentation zit ingebakken in veel tools en frameworks:

  • TensorFlow en PyTorch — beide hebben ingebouwde augmentatie-functies (zoals ImageDataGenerator in TensorFlow of torchvision.transforms in PyTorch)

  • Hugging Face — bij het trainen van taalmodellen kun je tekstaugmentatie toepassen met libraries zoals nlpaug

  • Roboflow — een platform voor computer vision waar je met een paar klikken augmentaties kunt instellen (draaien, spiegelen, kleur aanpassen) voordat je een model traint

  • Albumentations — een populaire Python-library speciaal voor beeldaugmentatie, met tientallen trucjes

  • AutoML-platforms zoals Google Vertex AI of Microsoft Azure Machine Learning — doen vaak automatisch augmentatie tijdens training

Ook in specifieke domeinen:

  • Medische beeldherkenning — röntgenfoto's draaien of spiegelen om meer variatie te krijgen (essentieel, want medische datasets zijn klein)

  • Zelfrijdende auto's — simuleren van regen, mist, schaduwen op camerabeelden om het model te leren omgaan met wisselende weersomstandigheden

  • Spamfilters — tekstvariaties genereren om te leren herkennen dat "GRATIS GELD!!!" en "gratis geld" hetzelfde betekenen

Zelf aan de slag

Als je een eigen AI-model traint, overweeg dan: welke variaties kunnen in de echte wereld voorkomen? Als je een app bouwt die planten herkent, kunnen foto's van links, rechts, van bovenaf, in schaduw of fel zonlicht gemaakt worden — zorg dat je trainingsdata die variatie weerspiegelt. Begin met simpele trucjes (draaien, spiegelen, kleur aanpassen) en kijk of je model er beter van wordt. Te veel augmentatie kan ook averechts werken — als je een hond zo ver uitrekt dat hij op een worst lijkt, leert het model de verkeerde dingen. Het gaat om realistisch variëren, niet om vervormingen die in de praktijk nooit voorkomen.

Data augmentation is geen wondermiddel, maar het is wel een van de makkelijkste manieren om met beperkte data tóch een robuust model te bouwen. En dat scheelt tijd, geld en frustratie.

FAQ

Veelgestelde vragen over Data Augmentation

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Data Augmentation?

Kunstmatig uitbreiden van je trainingsdataset door bestaande voorbeelden aan te passen — zodat je AI-model meer variatie ziet en beter leert generaliseren.

Waarom is Data Augmentation belangrijk?

Stel je voor: je wilt een AI-model leren om honden te herkennen, maar je hebt maar 100 foto's van honden. Dat is weinig — het model ziet telkens dezelfde honden in dezelfde houdingen, met hetzelfde licht. Data augmentation is de truc om die 100 foto's kunstmatig uit te breiden door kleine aanpassingen te maken: je draait een foto 15 graden, spiegelt hem horizontaal, maakt hem iets donkerder, of knipt een stukje van de rand af. Opeens heb je 1.000 of 10.000 varianten — allemaal net even anders, maar nog steeds herkenbaar als hond.

Hoe wordt Data Augmentation toegepast?

Het doel? Je model leert niet gewoon "deze specifieke foto = hond", maar "honden kunnen er van links, van rechts, in helder licht of schaduw, gedraaid of rechtop uitzien". Dat maakt het model robuuster: het herkent straks ook honden die het nog nooit gezien heeft.

Deel: