Wat is Validation Set?
Een aparte dataset waarmee je tijdens het trainen checkt of je AI-model ook goed werkt op data die het nog nooit heeft gezien, zodat je problemen als overfitting tijdig kunt opsporen.

Wat is een validation set eigenlijk?
Stel je voor dat je een student bent die zich voorbereidt op een examen. Je oefent met oude tentamens, maar als je alleen maar díe tentamens uit je hoofd leert, kun je misschien de echte toets verprutsen — omdat daar net iets andere vragen op staan. Een validation set werkt precies zo: het is een setje data dat je AI-model tijdens het leren gebruikt om te checken of het niet alleen de oefenopgaven uit z'n hoofd leert, maar ook nieuwe situaties aankan.
Bij het trainen van een AI-model splits je je dataset meestal in drie stukken: een training set (waar het model van leert), een validation set (waar je tijdens het trainen mee test) en een test set (voor de allerlaatste check helemaal aan het eind). De validation set helpt je om tussendoor bij te sturen — bijvoorbeeld door te stoppen met trainen als de prestaties op die validation set niet meer verbeteren, of door instellingen aan te passen.
Waarom zou jij hier iets aan hebben?
Zonder validation set loop je het risico dat je model overfitting ontwikkelt: het leert de trainingsdata zo goed uit z'n hoofd, dat het op nieuwe data juist slecht presteert. Denk aan een leerling die de antwoorden van de oefentoets letterlijk heeft gememoriseerd, maar de logica erachter niet snapt.
Door regelmatig te kijken naar de prestaties op de validation set, zie je dit vroeg genoeg. Als de score op je training set steeds beter wordt, maar die op je validation set stagneert of zelfs verslechtert, weet je dat je moet stoppen met trainen of je aanpak moet aanpassen.
Een voorbeeld uit de praktijk
Stel je traint een model dat spamberichten moet herkennen. Je hebt 10.000 e-mails verzameld. Je gebruikt er 7.000 om het model te trainen, 1.500 als validation set, en 1.500 als test set.
Tijdens het trainen zie je dat de nauwkeurigheid op je trainingsdata oploopt naar 98%. Prima! Maar als je checkt op je validation set, blijft die nauwkeurigheid steken op 85%. Dat is een waarschuwingssignaal: je model leert te specifiek de trainingsvoorbeelden, in plaats van algemene patronen. Dankzij de validation set kun je nu ingrijpen — bijvoorbeeld door het model minder complex te maken, of door eerder te stoppen met trainen.
Waar kom je het tegen?
In vrijwel alle situaties waar je een AI-model traint:
AutoML-platforms zoals Google Cloud AutoML, Azure Machine Learning of AWS SageMaker splitsen je data automatisch in training, validation en test sets
Machine learning-frameworks zoals TensorFlow, PyTorch en scikit-learn hebben ingebouwde functies om een validation set te gebruiken tijdens het trainen
Computer vision-projecten (gezichtsherkenning, medische beeldanalyse): de validation set laat zien of je model ook nieuwe foto's goed classificeert
Natural Language Processing (chatbots, tekstclassificatie): de validation set test of je model ook zinnen begrijpt die net iets anders zijn geformuleerd dan in de trainingsdata
Wat kun je er nu mee?
Als je zelf een AI-model traint — of iemand inhuurt om dat te doen — vraag dan altijd hoe de data is opgesplitst. Een goede validation set is essentieel om te voorkomen dat je model straks in de praktijk teleurstelt. En als je ergens leest dat een model "98% nauwkeurigheid" haalt: vraag op welke dataset. Een hoge score op alleen de trainingsdata zegt weinig — de validation set is waar je écht ziet of het model z'n werk goed doet.
Veelgestelde vragen over Validation Set
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Validation Set?
Een aparte dataset waarmee je tijdens het trainen checkt of je AI-model ook goed werkt op data die het nog nooit heeft gezien, zodat je problemen als overfitting tijdig kunt opsporen.
Waarom is Validation Set belangrijk?
Stel je voor dat je een student bent die zich voorbereidt op een examen. Je oefent met oude tentamens, maar als je alleen maar díe tentamens uit je hoofd leert, kun je misschien de echte toets verprutsen — omdat daar net iets andere vragen op staan. Een validation set werkt precies zo: het is een setje data dat je AI-model tijdens het leren gebruikt om te checken of het niet alleen de oefenopgaven uit z'n hoofd leert, maar ook nieuwe situaties aankan.
Hoe wordt Validation Set toegepast?
Bij het trainen van een AI-model splits je je dataset meestal in drie stukken: een training set (waar het model van leert), een validation set (waar je tijdens het trainen mee test) en een test set (voor de allerlaatste check helemaal aan het eind). De validation set helpt je om tussendoor bij te sturen — bijvoorbeeld door te stoppen met trainen als de prestaties op die validation set niet meer verbeteren, of door instellingen aan te passen.