Alle termenFundamenten & kernconcepten

Wat is Dataset?

Een verzameling gegevens die je gebruikt om een AI-model te trainen of te testen. Zoals een leerboek waarmee je voor een examen studeert.

Wat is een dataset eigenlijk?

Stel je voor dat je een kind leert om appels van peren te onderscheiden. Je laat honderden foto's zien: "dit is een appel, dit is een peer, dit nog een appel..." Die hele verzameling foto's noem je een dataset.

Bij AI werkt het precies zo. Een dataset is een verzameling voorbeelden waaruit een model leert. Dat kunnen afbeeldingen zijn, teksten, geluiden, tabellen met cijfers — eigenlijk alles waar een patroon in zit dat een AI kan leren herkennen.

Een dataset bestaat meestal uit twee onderdelen:

De input — bijvoorbeeld de foto van een kat
Het label of antwoord — bijvoorbeeld het woord "kat" dat erbij hoort

Hoe meer voorbeelden je hebt, hoe beter het model kan leren. Maar let op: kwaliteit is minstens zo belangrijk als kwantiteit. Een kleine, goed samengestelde dataset werkt vaak beter dan een enorme rommelige.

Waarom zijn datasets zo belangrijk?

AI-modellen zijn net studenten: ze leren van de voorbeelden die je ze geeft. Geef je een model alleen foto's van golden retrievers, dan denkt het straks dat álle honden goudkleurig en vriendelijk zijn. Geef je een taalmodel alleen formele zakelijke teksten, dan gaat het praten als een notaris.

De dataset bepaalt dus letterlijk wat een AI wel en niet kan. Daarom besteden AI-ontwikkelaars enorm veel tijd aan het verzamelen en controleren van goede data. Soms duurt dat langer dan het daadwerkelijke trainen van het model.

Een veelvoorkomend probleem: als je dataset scheef is (bijvoorbeeld vooral foto's van witte mensen bevat), dan wordt je AI ook scheef. Het model leert immers van wat het ziet.

Verschillende soorten datasets

In de praktijk kom je deze typen tegen:

Gelabelde datasets — elk voorbeeld heeft een antwoord erbij. Bijvoorbeeld medische scans waarbij een arts al heeft aangegeven waar de tumor zit. Deze zijn waardevol maar tijdrovend om te maken.

Ongelabelde datasets — ruwe data zonder antwoorden. Bijvoorbeeld alle teksten op Wikipedia. Modellen zoals ChatGPT leren eerst massaal van zulke data voordat ze verder getraind worden met gelabelde voorbeelden.

Trainingsdata vs testdata — je splitst je dataset meestal op. Het grootste deel gebruik je voor training, een kleiner deel houd je apart om te testen of het model ook écht heeft geleerd (en niet gewoon de antwoorden uit het hoofd kent).

Een voorbeeld uit de praktijk

Een webwinkel wil klanten automatisch helpen met productaanbevelingen. Ze verzamelen data van duizenden eerdere aankopen: wie kocht wat, wanneer, in welke combinaties? Die hele verzameling aankoopgegevens is hun dataset.

Vervolgens trainen ze er een model mee dat patronen herkent: mensen die babyvoeding kopen, kopen vaak ook luiers. Iemand die een tent koopt, is vaak ook geïnteresseerd in slaapzakken. Het model leert die verbanden puur uit de voorbeelden in de dataset.

Waar kom je het tegen?

Als je zelf met AI aan de slag gaat, werk je vrijwel altijd met datasets:

ChatGPT, Claude, Gemini — getraind op enorme datasets met miljarden zinnen uit boeken, websites en gesprekken
Midjourney, DALL-E, Stable Diffusion — getraind op datasets met miljoenen afbeeldingen en bijbehorende beschrijvingen
Bedrijfssoftware — customer service bots leren van datasets met eerdere klantvragen en antwoorden
Publieke datasets — platforms zoals Kaggle en Hugging Face bieden duizenden kant-en-klare datasets voor wie zelf een model wil trainen
Google, Meta, OpenAI — investeren miljoenen in het verzamelen en cureren van hoogwaardige datasets

Als je ooit een captcha hebt ingevuld ("selecteer alle verkeerslichten"), heb je trouwens zelf geholpen een dataset te labelen. Die afbeeldingen worden gebruikt om zelfrijdende auto's te trainen.

Wat kun je er zelf mee?

Begrijp dat elke AI zo goed is als de data waarop hij getraind is. Als je een AI-tool gebruikt voor je bedrijf, vraag dan: op welke data is dit getraind? Is dat vergelijkbaar met mijn situatie?

Wil je zelf een AI-model trainen? Begin klein. Verzamel eerst honderd goede voorbeelden voordat je aan duizenden denkt. En test altijd met data die je model nog nooit heeft gezien — pas dan weet je of het écht werkt of gewoon uit het hoofd heeft geleerd.

FAQ

Veelgestelde vragen over Dataset

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Dataset?

Een verzameling gegevens die je gebruikt om een AI-model te trainen of te testen. Zoals een leerboek waarmee je voor een examen studeert.

Waarom is Dataset belangrijk?

Hoe wordt Dataset toegepast?

Deel:

Laatst bijgewerkt 3 mei 2026