Alle termenData, evaluatie & metrics

Wat is Holdout Set?

Een apart stukje data dat je bewust niet gebruikt tijdens het trainen van je AI-model, maar alleen om aan het eind te controleren of het model ook in de echte wereld goed werkt.

Waarom je niet met je eigen huiswerk mag oefenen

Stel je voor: je kind heeft volgende week een wiskundetoets. Je laat hem elke avond oefenen met dezelfde tien sommen. Op de dag van de toets krijgt hij... precies die tien sommen. Natuurlijk haalt hij een tien — maar kan hij ook wiskunde?

Dat is precies het probleem waar AI-ontwikkelaars mee worstelen. Als je een model traint op data en het vervolgens test op diezelfde data, krijg je een te rooskleurig beeld. Het model heeft de antwoorden uit z'n hoofd geleerd, maar kan het ook nieuwe situaties aan?

Daar komt het holdout set om de hoek kijken: een verzameling voorbeelden die je bewust apart houdt. Het model ziet deze data niet tijdens de training, niet tijdens het tweaken, helemaal nooit — tot het allerlaatste moment. Dan test je ermee of je model ook in de echte wereld iets voorstelt.

Hoe werkt het eigenlijk?

Wanneer je een AI-model bouwt, verdeel je je dataset meestal in drie stapels:

Training set (vaak 70-80%) — hierop leert het model z'n patronen
Validation set (10-15%) — hiermee tunen ontwikkelaars het model tijdens het werk: welke instellingen werken het best?
Holdout set (10-15%) — dit blijft onaangeroerd tot het allerlaatste eind

Die laatste stapel is je eerlijkheidstoets. Pas als je denkt dat het model klaar is, laat je het los op het holdout set. De score die je dan ziet, is de meest realistische voorspelling van hoe het model zich gedraagt bij échte, nieuwe data uit de praktijk.

Soms wordt het holdout set ook wel test set genoemd, maar let op: dat kan verwarrend zijn, want sommige teams gebruiken het validation set ook al voor tussentijdse tests. Het punt is: het holdout set raak je niet aan tot je echt klaar bent.

Een voorbeeld uit de praktijk

Een ziekenhuis wil een model bouwen dat op basis van medische scans longontsteking kan herkennen. Ze hebben 10.000 scans verzameld:

7.000 gebruiken ze om het model te trainen
1.500 gebruiken artsen en data-engineers om instellingen bij te stellen (validation set)
1.500 blijven volledig buiten beeld (holdout set)

Na weken werken lijkt het model 94% nauwkeurig op het validation set. Iedereen blij. Dan draaien ze het los op het holdout set: 87%. Dat is de échte score — en die ligt lager. Waarom? Omdat het model tijdens de ontwikkeling onbewust een beetje is gaan "leunen" op patronen in het validation set. Het holdout set voorkomt dat je jezelf voor de gek houdt.

Waar kom je het tegen?

Elke serieuze AI-toepassing waar betrouwbaarheid telt, gebruikt een holdout set:

Medische AI — voor diagnosemodellen die levens kunnen raken
Fraudedetectie — banken willen weten of hun model échte nieuwe fraude herkent
Zelfrijdende auto's — veiligheid vereist eerlijke testresultaten
Recruitment-AI — voorspellen of iemand een goede werknemer wordt op basis van nieuwe sollicitanten

In tools zoals scikit-learn (Python) splits je data met functies als train_test_split(). Bij grote taalmodellen (ChatGPT, Claude, Gemini) gebeurt dit ook, maar de holdout sets zijn vaak niet publiek — de bouwers gebruiken ze intern om te valideren voordat ze een nieuwe versie uitrollen.

In Kaggle-wedstrijden krijg je vaak een public leaderboard (gebaseerd op een klein stukje testdata) en een private leaderboard (het echte holdout set) dat pas na de deadline zichtbaar wordt. Zo voorkom je dat teams hun model afstemmen op de testdata.

Waarom dit voor jou belangrijk is

Als je een AI-model koopt, bouwt of laat bouwen: vraag altijd naar de holdout-score. Een leverancier die alleen praat over "95% nauwkeurigheid" zonder te vertellen hoe die is gemeten, kan bewust of onbewust mooier weer spelen dan het is.

Een eerlijk holdout set is jouw garantie dat het model ook werkt op data die het nog nooit heeft gezien — en dat is uiteindelijk de enige score die telt in de echte wereld.

FAQ

Veelgestelde vragen over Holdout Set

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Holdout Set?

Een apart stukje data dat je bewust niet gebruikt tijdens het trainen van je AI-model, maar alleen om aan het eind te controleren of het model ook in de echte wereld goed werkt.

Waarom is Holdout Set belangrijk?

Hoe wordt Holdout Set toegepast?

Deel:

Laatst bijgewerkt 3 mei 2026