Direct naar inhoud
Alle termenData, evaluatie & metrics

Wat is Training Set?

De verzameling voorbeelden waarop een AI-model leert — zoals oefenopgaven waarmee je een vaardigheid traint, zodat je later ook nieuwe situaties aankan.

Wat is Training Set

Wat is een training set eigenlijk?

Stel je voor dat je iemand leert fietsen. Je begint op een rustig pleintje, laat ze oefenen met balans houden, remmen en sturen. Die oefensituaties vormen samen hun 'training set'. Ze leren niet om later precies datzelfde pleintje te berijden, maar om overal veilig te kunnen fietsen.

Precies zo werkt het bij AI. Een training set is de verzameling voorbeelden die je aan een AI-model geeft tijdens het leerproces. Het zijn de oefenopgaven waaruit het model patronen moet halen. Voor een spamfilter zijn dat duizenden emails met het label 'spam' of 'geen spam'. Voor een beeldherkenner zijn het foto's met labels als 'hond', 'kat' of 'auto'. Het model bestudeert deze voorbeelden tot het de onderliggende patronen snapt — wat maakt een email spam? Welke pixels vormen samen een hond?

Het cruciale punt: de training set is niet hetzelfde als de échte wereld. Het is een selectie. En die selectie bepaalt voor een groot deel wat het model later wel en niet goed kan.

Waarom is een goede training set zo belangrijk?

De kwaliteit van je training set bepaalt rechtstreeks hoe goed je AI-systeem werkt. Een paar vuistregels:

  • Grote hoeveelheid helpt meestal — hoe meer voorbeelden, hoe beter het model de nuances leert. Moderne taalmodellen trainen op miljarden zinnen.

  • Representatief moet het zijn — als je spamfilter alleen Engels gezien heeft tijdens training, faalt hij bij Spaanse spam. Als je gezichtsherkenner alleen blanke gezichten zag, presteert hij slechter bij andere huidtinten.

  • Kwaliteit telt meer dan kwantiteit — duizend correct gelabelde foto's werken beter dan tienduizend foto's met foute labels. Rommel erin is rommel eruit.

  • Balans voorkomt scheefgroei — als 95% van je trainingsdata 'geen fraude' is en maar 5% 'fraude', leert het model vooral het normale gedrag te herkennen en mist het de uitzonderingen.

Een voorbeeld uit de praktijk

Een ziekenhuis wil een AI-systeem trainen dat longfoto's beoordeelt op afwijkingen. Ze verzamelen 50.000 röntgenfoto's van patiënten uit hun eigen ziekenhuis. Radiologen labelen elke foto: 'normaal', 'vermoeden longontsteking', 'vermoeden tumor', enzovoort. Dat wordt de training set.

Het model traint hierop en scoort uitstekend — in datzelfde ziekenhuis. Maar wanneer een ander ziekenhuis het systeem test, gaat het mis. Waarom? Het eerste ziekenhuis gebruikte een ouder type röntgenapparaat, met net iets andere belichting. De training set was niet representatief genoeg voor de variatie in de echte wereld.

Dit voorbeeld laat zien dat je niet alleen veel data nodig hebt, maar ook diverse data die de situaties dekt waarin je AI later moet functioneren.

Waar kom je het tegen?

Elke AI-toepassing die je gebruikt heeft een training set gehad:

  • ChatGPT, Claude, Gemini — getraind op miljarden webpagina's, boeken, artikelen en gesprekken

  • Google Translate — miljoenen vertaalde tekstparen in honderden talen

  • Spamfilters in Gmail of Outlook — miljoenen gelabelde emails

  • Netflix-aanbevelingen — kijkgeschiedenis en ratings van miljoenen gebruikers

  • Zelfrijdende auto's — miljoenen kilometers aan opgenomen beelden met gelabelde objecten

  • Gezichtsherkenning op je telefoon — duizenden gezichtsfoto's in allerlei lichtomstandigheden

Bij commerciële AI-tools zie je de training set zelf niet — die blijft intern. Maar open-source projecten delen soms hun datasets, zoals ImageNet (14 miljoen gelabelde foto's) of Common Crawl (petabytes aan webtekst).

Training set, validation set, test set: wat is het verschil?

In de praktijk splits je je totale data meestal in drie delen:

  • Training set (70-80%) — hierop leert het model

  • Validation set (10-15%) — hiermee tune je tijdens het trainen (welke instellingen werken het best?)

  • Test set (10-15%) — hiermee toets je aan het eind hoe goed het model presteert op volledig nieuwe data

Die scheiding is cruciaal. Als je het model test op data die het al tijdens training gezien heeft, krijg je een veel te optimistisch beeld. Dat is alsof je studenten exact dezelfde vragen geeft op het eindexamen als op de oefentoets — ze lijken dan beter dan ze zijn.

Wat kun je nu met deze kennis?

Als je met AI gaat werken — of een leverancier inschakelt — vraag dan altijd: waar is dit model op getraind? Geen enkel AI-systeem is beter dan de voorbeelden waarop het leerde. Als de training set niet past bij jouw situatie (andere taal, andere sector, andere doelgroep), dan presteert het model niet zoals je hoopt.

Wil je zelf een model trainen of fine-tunen? Begin dan niet met het model, maar met je data. Zorg dat je training set groot genoeg, divers genoeg en schoon genoeg is. Dat bespaart je later een hoop teleurstellingen.

FAQ

Veelgestelde vragen over Training Set

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Training Set?

De verzameling voorbeelden waarop een AI-model leert — zoals oefenopgaven waarmee je een vaardigheid traint, zodat je later ook nieuwe situaties aankan.

Waarom is Training Set belangrijk?

Stel je voor dat je iemand leert fietsen. Je begint op een rustig pleintje, laat ze oefenen met balans houden, remmen en sturen. Die oefensituaties vormen samen hun 'training set'. Ze leren niet om later precies datzelfde pleintje te berijden, maar om overal veilig te kunnen fietsen.

Hoe wordt Training Set toegepast?

Precies zo werkt het bij AI. Een training set is de verzameling voorbeelden die je aan een AI-model geeft tijdens het leerproces. Het zijn de oefenopgaven waaruit het model patronen moet halen. Voor een spamfilter zijn dat duizenden emails met het label 'spam' of 'geen spam'. Voor een beeldherkenner zijn het foto's met labels als 'hond', 'kat' of 'auto'. Het model bestudeert deze voorbeelden tot het de onderliggende patronen snapt — wat maakt een email spam? Welke pixels vormen samen een hond?

Deel: