Wat is Datasheet?
Een soort 'bijsluiter' bij een AI-dataset die beschrijft waar de data vandaan komt, welke beperkingen erop zitten, en welke risico's je kunt verwachten als je ermee werkt.

Wat is een datasheet eigenlijk?
Stel je voor dat je medicijnen koopt — daar zit altijd een bijsluiter bij met informatie over ingrediënten, bijwerkingen en wanneer je het niet moet gebruiken. Een datasheet is precies zo'n bijsluiter, maar dan voor datasets waarmee AI-modellen getraind worden.
Het is een gestructureerd document waarin staat: waar komt deze data vandaan? Wie heeft het verzameld? Welke mensen of situaties zitten erin, en welke juist niet? Welke vooroordelen kunnen erin zitten? En: waarvoor is deze dataset wél geschikt, en waarvoor juist niet?
De term komt uit onderzoek van computer scientists die zagen dat veel AI-problemen ontstaan doordat ontwikkelaars datasets gebruiken zonder precies te weten wat erin zit — net zoals je geen medicijn zou innemen zonder te weten wat de werkzame stof is.
Waarom is dat belangrijk?
AI-modellen leren van data. Als die data scheef is — bijvoorbeeld alleen foto's van lichtgetinte gezichten, of teksten die stereotypen bevatten — dan leert het model die scheve patronen ook. Maar vaak weet de ontwikkelaar dat niet, omdat er geen documentatie is.
Een datasheet helpt om:
Transparant te zijn — je weet wat je in huis haalt voordat je ermee aan de slag gaat
Risico's te herkennen — staat er bijvoorbeeld in dat de dataset vooral uit Amerikaanse data bestaat, dan weet je dat het model misschien minder goed werkt in Europa
Verantwoordelijkheid te nemen — als er later problemen opduiken (bias, discriminatie), kun je terugzoeken waar het fout ging
Denk aan een gezichtsherkenningssysteem dat slecht presteert bij donkere huidtinten. Met een datasheet had je van tevoren kunnen zien dat de trainingsfoto's niet divers genoeg waren.
Wat staat er zoal in?
Een goede datasheet beantwoordt vragen als:
Motivatie — waarom is deze dataset gemaakt? Voor welk doel?
Samenstelling — hoeveel datapunten, wat voor soort data (foto's, tekst, audio), welke categorieën?
Verzamelproces — hoe is de data verzameld? Door wie? Met welke tools?
Voorbewerkingen — is de data geschoond, gefilterd of aangepast? Zo ja, hoe?
Gebruik — waarvoor is de dataset bedoeld? En waarvoor juist niet?
Verdeling — hoe is de data verdeeld (bijvoorbeeld man/vrouw, leeftijd, geografie)?
Onderhoud — wordt de dataset nog bijgewerkt? Wie beheert het?
Het hoeft geen roman te zijn — een paar pagina's gestructureerde informatie is vaak al genoeg.
Een voorbeeld uit de praktijk
Een bekend voorbeeld is de dataset ImageNet, die jarenlang gebruikt is om beeldherkenningsmodellen te trainen. Achteraf bleek dat sommige labels stereotype of zelfs beledigende categorieën bevatten. Pas toen onderzoekers dat documenteerden en publiceerden, werden die labels verwijderd.
Als ImageNet vanaf het begin een volledige datasheet had gehad, waren die problemen waarschijnlijk eerder opgemerkt — of zelfs helemaal voorkomen.
Waar kom je het tegen?
Datasheets zijn nog niet overal standaard, maar je ziet ze steeds vaker bij:
Open datasets zoals die op Hugging Face, Google Dataset Search of Kaggle — sommige datasets hebben nu een 'Data Card' of 'Model Card' erbij, wat vergelijkbaar is
Wetenschappelijk onderzoek — papers over AI vragen steeds vaker om documentatie bij de gebruikte data
Bedrijven die AI inkopen — wie een AI-systeem koopt of gebruikt, vraagt steeds vaker om documentatie van de onderliggende data
Compliance en audits — in sommige sectoren (financieel, zorg) is het verplicht om te kunnen aantonen waar je data vandaan komt
Als je zelf met AI aan de slag gaat — of een model inkoopt of laat bouwen — kun je naar een datasheet vragen. Dat is geen luxe, maar gewoon goed vakmanschap. Net zoals je een keuring doet voordat je een huis koopt, check je de data voordat je ermee gaat bouwen.
Veelgestelde vragen over Datasheet
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Datasheet?
Een soort 'bijsluiter' bij een AI-dataset die beschrijft waar de data vandaan komt, welke beperkingen erop zitten, en welke risico's je kunt verwachten als je ermee werkt.
Waarom is Datasheet belangrijk?
Stel je voor dat je medicijnen koopt — daar zit altijd een bijsluiter bij met informatie over ingrediënten, bijwerkingen en wanneer je het niet moet gebruiken. Een datasheet is precies zo'n bijsluiter, maar dan voor datasets waarmee AI-modellen getraind worden.
Hoe wordt Datasheet toegepast?
Het is een gestructureerd document waarin staat: waar komt deze data vandaan? Wie heeft het verzameld? Welke mensen of situaties zitten erin, en welke juist niet? Welke vooroordelen kunnen erin zitten? En: waarvoor is deze dataset wél geschikt, en waarvoor juist niet?