Alle termenFundamenten & kernconcepten

Wat is Weight Decay?

Een techniek die ervoor zorgt dat een AI-model niet te afhankelijk wordt van individuele signalen, door te grote invloeden subtiel af te remmen — zoals een goede docent die voorkomt dat één leerling de hele klas domineert.

Wat is Weight Decay eigenlijk?

Stel je voor: je traint een AI-model om huizenprijzen te voorspellen. Het model leert allerlei factoren mee te wegen — oppervlakte, locatie, bouwjaar, staat van onderhoud. Maar soms gaat het model té enthousiast met één factor aan de slag. Het denkt bijvoorbeeld: "Aha, als de oppervlakte 10m² groter is, tel ik daar meteen €100.000 bij op!" Dat soort extreme gewichten leiden tot rare voorspellingen zodra je een huis tegenkomt dat net even anders is dan wat het model eerder zag.

Weight Decay is een truc om dat te voorkomen. Het houdt de interne gewichten — de invloedsfactoren die het model gebruikt — modest en gebalanceerd. Tijdens de training krijgt het model bij elke leerstap een subtiele straf als gewichten te groot worden. Het is alsof je tegen een leerling zegt: "Je mag best de antwoorden leren, maar niet door één trucje uit je hoofd te stampen — blijf breed kijken."

Hoe werkt het?

Bij elke trainingsstap past het model zijn interne instellingen (de gewichten) aan. Zonder Weight Decay zou het model die gewichten steeds verder opschroeven om fouten te verminderen — soms tot onrealistische hoogtes. Met Weight Decay trek je na elke stap een klein beetje van elk gewicht af, alsof je zegt: "Blijf bescheiden, ga niet overdrijven."

Technisch gezien voeg je een extra term toe aan de "verliesfunctie" (het cijfer dat aangeeft hoe goed het model presteert). Die term wordt groter naarmate gewichten groter worden. Het model krijgt dus twee doelen: fouten klein houden én gewichten klein houden. Dat voorkomt dat het model één patroon té zwaar laat meewegen.

Waarom zou jij hier iets aan hebben?

Weight Decay helpt modellen beter te generaliseren — ze presteren niet alleen goed op de trainingsdata, maar ook op nieuwe situaties die ze nog niet eerder zagen. Zonder deze rem kan een model "overfitten": het leert de trainingsvoorbeelden uit het hoofd in plaats van echte patronen te herkennen.

Denk aan spam-detectie: zonder Weight Decay zou een model misschien té veel waarde hechten aan één specifiek woord ("gratis!") en vervolgens alle mails met dat woord blokkeren — ook al zijn sommige legitiem. Met Weight Decay blijft het model genuanceerder kijken naar meerdere signalen tegelijk.

In de praktijk zie je dit vooral bij het trainen van Neural Networks. Het is geen wondermiddel, maar een standaard-ingredient in vrijwel elk modern AI-recept — een beetje zoals zout in de keuken: je merkt het niet altijd direct, maar zonder wordt het resultaat veel minder stabiel.

Waar kom je het tegen?

Weight Decay zit onder de motorkap van de meeste moderne AI-systemen. Je ziet het niet direct als gebruiker, maar voor wie modellen traint is het een cruciale instelling:

Deep learning frameworks zoals PyTorch en TensorFlow hebben Weight Decay standaard ingebouwd als trainingsparameter
Optimizer-instellingen: bij tools als Adam of SGD kun je Weight Decay aanzetten met één regel code
AutoML-platformen (Google Vertex AI, Azure ML) passen het vaak automatisch toe
Onderzoekspapers over Neural Networks noemen vrijwel altijd de Weight Decay-waarde die ze gebruikten — vaak iets als 0.0001 of 0.01

Ook bij transfer learning — wanneer je een bestaand model verder traint voor jouw specifieke taak — is Weight Decay belangrijk om te voorkomen dat het model zijn eerdere kennis "vergeet" door te veel aan te passen.

Wat kun je ermee?

Als je zelf AI-modellen traint (bijvoorbeeld voor beeldherkenning, tekstanalyse of voorspellingen), is Weight Decay een van de eerste knoppen waar je aan draait. Te weinig? Het model overfit. Te veel? Het model leert te langzaam en blijft te simpel.

Ook als je geen data scientist bent: begrijpen dat modellen dit soort ingebouwde bescheidenheid nodig hebben, helpt je kritischer te kijken naar AI-projecten. Als een leverancier zegt "ons model heeft 99% nauwkeurigheid", weet je nu dat je moet vragen: op welke data? Hebben ze goed geregulariseerd? Of hebben ze misschien een model dat de trainingsdata uit zijn hoofd geleerd heeft zonder echte flexibiliteit?