Direct naar inhoud
Alle termenNeurale netwerken & deep learning

Wat is Pretraining?

De fase waarin een AI-model leert van enorme hoeveelheden data, voordat het wordt verfijnd voor specifieke taken — zoals een kind dat eerst leert lezen voordat het vakken gaat volgen.

Wat is Pretraining

Wat is pretraining eigenlijk?

Stel je voor: je wilt een AI-assistent die juridische contracten kan analyseren. Je zou kunnen beginnen met een compleet nieuw model vanaf nul trainen op alleen juridische teksten. Maar dat is alsof je een kind meteen wiskunde probeert te leren zonder dat het eerst heeft leren lezen en schrijven.

Pretraining is die eerste, brede leerfase. Het model krijgt toegang tot gigantische hoeveelheden tekst — denk aan miljoenen boeken, artikelen, websites — en leert daaruit de basisstructuur van taal. Wat zijn woorden? Hoe hangen zinnen samen? Wat betekent context? Welke patronen zie je steeds terugkomen?

Dit gebeurt vaak met een techniek waarbij het model steeds het volgende woord in een zin moet voorspellen. Door miljarden keren te oefenen, bouwt het een soort 'wereldmodel' op: algemene kennis over hoe taal werkt, maar ook over geschiedenis, wetenschap, cultuur — alles wat in die trainingsdata zat.

Waarom is het zo belangrijk?

Zonder pretraining zou elk AI-model helemaal opnieuw moeten beginnen. Dat zou onbetaalbaar zijn — zowel qua rekenkracht als tijd. Een volledig pretrainen van een groot taalmodel kost al snel miljoenen aan servercapaciteit en duurt weken tot maanden.

Maar door één keer goed te pretrainen, krijg je een 'fundering' die je daarna voor talloze taken kunt hergebruiken. Wil je een chatbot voor klantenservice? Een vertaalassistent? Een samenvattingstool? Je begint allemaal met hetzelfde gepretrainede model, en past het dan aan via een tweede fase: fine-tuning.

Die tweede fase is veel lichter — je hebt dan nog maar een fractie van de data en rekenkracht nodig. Het is alsof je iemand die al algemeen ontwikkeld is, een korte cursus geeft voor een specifiek vak.

Hoe werkt het in de praktijk?

Een typisch pretraining-proces ziet er zo uit:

  • Data verzamelen: vaak tientallen tot honderden miljarden woorden uit publieke bronnen (Wikipedia, boeken, websites, forums)

  • Opschonen: spam, persoonlijke data en andere rommel eruit filteren

  • Trainen: het model krijgt steeds een stuk tekst te zien met één woord weggelaten, en moet dat woord raden. Bij elke fout wordt het model een héél klein beetje bijgesteld

  • Herhalen: dit proces draait soms weken op duizenden krachtige GPU's tegelijk

Het resultaat is een 'base model' — een AI die breed inzetbaar is, maar nog niet gespecialiseerd.

Een voorbeeld

Bekende modellen zoals GPT, LLaMA of BERT zijn allemaal begonnen met zo'n brede pretraining-fase. GPT-3 is bijvoorbeeld getraind op ongeveer 500 miljard woorden. Dat verklaart waarom het model zoveel 'weet' zonder dat iemand het expliciet heeft geprogrammeerd: het heeft patronen gezien in verhalen, encyclopedieën, nieuwsartikelen, recepten, forumposts — alles door elkaar.

Bedrijven en onderzoekers die daarna specifieke toepassingen willen bouwen (zoals een medische assistent of een code-helper), hoeven niet opnieuw die 500 miljard woorden door te spitten. Ze pakken het gepretrainede model en geven het nóg een kleinere training op hun specifieke domein.

Waar kom je het tegen?

Bijna elke moderne AI-toepassing die met taal werkt, gebruikt pretraining als basis:

  • ChatGPT (OpenAI) — begon met een gepretrained GPT-model

  • Claude (Anthropic) — ook gebaseerd op een breed gepretrained model

  • Gemini (Google) — gebruikt pretraining voor tekst, maar ook voor beeld en video

  • LLaMA (Meta) — open-source modellen die anderen kunnen fine-tunen

  • Mistral, Qwen, DeepSeek — allemaal starten met pretraining

Zelfs kleinere bedrijven gebruiken vaak publiek beschikbare gepretrainede modellen (via Hugging Face bijvoorbeeld) als startpunt voor hun eigen oplossingen.

Wat kun je hier zelf mee?

Als je geen AI-onderzoeker bent, ga je waarschijnlijk nooit zelf een model pretrainen — dat is voorbehouden aan grote techbedrijven en universiteiten met enorme budgetten. Maar het is wel handig om te begrijpen dat de meeste AI-tools die je gebruikt al die brede 'vooropleiding' achter de rug hebben.

Als je een AI-tool voor je bedrijf wilt inzetten, kun je dus vaak beginnen met een bestaand gepretrained model en dat verfijnen met je eigen data. Dat scheelt enorm veel tijd en geld — en maakt AI toegankelijk voor organisaties zonder megabudget. Check bijvoorbeeld Hugging Face of OpenAI's fine-tuning-opties als je wilt experimenteren met je eigen toepassing.

FAQ

Veelgestelde vragen over Pretraining

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Pretraining?

De fase waarin een AI-model leert van enorme hoeveelheden data, voordat het wordt verfijnd voor specifieke taken — zoals een kind dat eerst leert lezen voordat het vakken gaat volgen.

Waarom is Pretraining belangrijk?

Stel je voor: je wilt een AI-assistent die juridische contracten kan analyseren. Je zou kunnen beginnen met een compleet nieuw model vanaf nul trainen op alleen juridische teksten. Maar dat is alsof je een kind meteen wiskunde probeert te leren zonder dat het eerst heeft leren lezen en schrijven.

Hoe wordt Pretraining toegepast?

Pretraining is die eerste, brede leerfase. Het model krijgt toegang tot gigantische hoeveelheden tekst — denk aan miljoenen boeken, artikelen, websites — en leert daaruit de basisstructuur van taal. Wat zijn woorden? Hoe hangen zinnen samen? Wat betekent context? Welke patronen zie je steeds terugkomen?

Deel: