Wat is Stratified Sampling?
Een slimme manier om data te verdelen waarbij je ervoor zorgt dat alle belangrijke groepen evenredig vertegenwoordigd zijn, zodat je AI-model een eerlijker beeld krijgt van de werkelijkheid.

Wat is Stratified Sampling eigenlijk?
Stel je voor dat je een AI-model wilt trainen om creditaanvragen te beoordelen. Je hebt een database met 10.000 aanvragen, maar slechts 500 daarvan zijn van starters — de rest van gevestigde bedrijven. Als je nou willekeurig 1.000 aanvragen pakt voor je testset, heb je misschien maar 50 starters erin. Te weinig om te controleren of je model ook bij die groep goed werkt.
Stratified sampling lost dat op. In plaats van blind graaien, verdeel je je data eerst in groepen (strata) — bijvoorbeeld starters en gevestigde bedrijven — en pakt dan uit elke groep een evenredig deel. Zo krijgt elke belangrijke categorie genoeg aandacht in je train-, validatie- en testsets.
Het 'stratified' komt van het Latijnse woord voor 'in lagen' — net zoals geologische lagen in de grond. Je verdeelt je data in betekenisvolle lagen voordat je gaat samplen.
Waarom zou jij hier iets aan hebben?
AI-modellen leren van patronen. Als een belangrijke groep ondervertegenwoordigd is in je trainingsdata, leert het model die groep simpelweg minder goed kennen. Bij willekeurige selectie (random sampling) kun je pech hebben: zeldzame maar belangrijke groepen vallen door de mazen.
Met stratified sampling:
Voorkom je blinde vlekken — zeldzame categorieën krijgen gegarandeerd genoeg voorbeelden
Krijg je betrouwbaardere testresultaten — je meet de prestaties bij álle relevante groepen
Voorkom je onbedoelde bias — als bijvoorbeeld vrouwen 20% van je dataset zijn, zorgt stratified sampling dat ze ook 20% van je testset zijn, niet 5% door toeval
Kun je betere beslissingen nemen — je ziet precies waar je model goed of slecht presteert
Dit is vooral belangrijk bij medische diagnoses, kredietbeoordelingen, sollicitatiescreening — overal waar eerlijkheid en nauwkeurigheid voor alle groepen cruciaal zijn.
Hoe werkt het in de praktijk?
Een concreet voorbeeld: je traint een AI om huidaandoeningen te herkennen op foto's. Je hebt 5.000 foto's: 60% blanke huid, 25% donkere huid, 15% Aziatische huidskleur. Zonder stratified sampling zou je trainset vooral blanke huid bevatten — en werkt je model bij andere huidtypes slechter.
Met stratified sampling verdeel je eerst je 5.000 foto's in drie strata op basis van huidskleur. Dan splits je elke groep volgens dezelfde verhouding:
Trainen (80%): 2.400 blanke, 1.000 donkere, 600 Aziatische foto's
Valideren (10%): 300 blanke, 125 donkere, 75 Aziatische foto's
Testen (10%): 300 blanke, 125 donkere, 75 Aziatische foto's
Elke set heeft nu dezelfde verhoudingen als je oorspronkelijke dataset. Je model ziet alle groepen evenredig tijdens training, en je testresultaten zijn betrouwbaarder omdat je voldoende voorbeelden van elke groep hebt.
Je kunt stratificeren op alles wat belangrijk is: leeftijd, regio, productcategorie, diagnose, seizoen — welke dimensie dan ook relevant is voor je probleem.
Waar kom je het tegen?
Stratified sampling is ingebouwd in veel data science-tools:
Scikit-learn (Python) heeft een
train_test_splitfunctie met eenstratifyparameterPandas (Python) kun je gebruiken om handmatig strata te maken en te samplen
R heeft packages zoals
caretmet stratified sampling optiesAzure Machine Learning en Google Vertex AI bieden stratified splitting in hun AutoML-pipelines
Dataiku en RapidMiner (no-code platforms) hebben visuele tools voor gestratificeerde data-splits
Bij elk groter AI-project waar je datasets verdeelt over train/validatie/test, is dit een standaard-stap. Het wordt vaak niet expliciet vermeld in de interface, maar zit wel in de configuratie.
Let hier op
Stratified sampling lost niet alles op. Als een bepaalde groep extreem zeldzaam is (bijvoorbeeld 10 gevallen in 10.000), krijg je misschien maar 1 voorbeeld in je testset — dat is statistisch nog steeds weinig.
Ook vraagt het om een bewuste keuze: op welke dimensie stratificeer je? Als je op geslacht stratificeert maar niet op leeftijd, kun je alsnog een scheef leeftijdsbeeld krijgen. Bij meerdere dimensies wordt het snel complex — dan praat je over multidimensionale stratificatie, wat technisch ingewikkelder is.
En ten slotte: stratified sampling helpt alleen als je de relevante groepen ook daadwerkelijk kunt identificeren in je data. Als die informatie ontbreekt, kun je niet stratificeren.
Wat kun je er nu mee?
Als je met AI-projecten werkt of data voorbereidt voor machine learning, vraag jezelf af: zijn er belangrijke categorieën in mijn data die ondervertegenwoordigd kunnen raken bij willekeurige selectie? Denk aan klantsegmenten, zeldzame gebeurtenissen, demografische groepen, productcategorieën.
Gebruik dan stratified sampling bij het splitsen van je data. De meeste tools ondersteunen het — het kost nauwelijks extra moeite, maar voorkomt dat je model onbedoeld bepaalde groepen negeert. Het is een kleine aanpassing met groot effect op eerlijkheid en betrouwbaarheid.
Veelgestelde vragen over Stratified Sampling
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Stratified Sampling?
Een slimme manier om data te verdelen waarbij je ervoor zorgt dat alle belangrijke groepen evenredig vertegenwoordigd zijn, zodat je AI-model een eerlijker beeld krijgt van de werkelijkheid.
Waarom is Stratified Sampling belangrijk?
Stel je voor dat je een AI-model wilt trainen om creditaanvragen te beoordelen. Je hebt een database met 10.000 aanvragen, maar slechts 500 daarvan zijn van starters — de rest van gevestigde bedrijven. Als je nou willekeurig 1.000 aanvragen pakt voor je testset, heb je misschien maar 50 starters erin. Te weinig om te controleren of je model ook bij die groep goed werkt.
Hoe wordt Stratified Sampling toegepast?
Stratified sampling lost dat op. In plaats van blind graaien, verdeel je je data eerst in groepen (strata) — bijvoorbeeld starters en gevestigde bedrijven — en pakt dan uit elke groep een evenredig deel. Zo krijgt elke belangrijke categorie genoeg aandacht in je train-, validatie- en testsets.