Alle termenNeurale netwerken & deep learning

Wat is Vanishing Gradient?

Een probleem waarbij signalen tijdens het leren steeds zwakker worden, waardoor de eerste lagen van een neuraal netwerk nauwelijks meer bijleren — alsof je gefluister door tien muren heen probeert te verstaan.

Wat is het probleem?

Stel je voor: je bent aan het trainen van een neuraal netwerk met tien lagen. Elke keer dat het netwerk een fout maakt, stuur je een correctiesignaal terug door alle lagen heen — van de uitgang helemaal terug naar het begin. Dat heet backpropagation. Maar hier komt het: bij elke laag die dat signaal passeert, wordt het een beetje zwakker. En een beetje zwakker. En nog een beetje zwakker.

Bij de eerste paar lagen is het correctiesignaal zo extreem zwak geworden dat die lagen nauwelijks nog bijleren. Het vanishing gradient probleem betekent letterlijk dat de "gradiënt" — het wiskundige signaal dat zegt "pas je gewichten hierop aan" — praktisch verdwijnt.

Het gevolg? Je netwerk leert wel in de laatste lagen, maar de eerste lagen blijven hangen in hun begintoestand. En dat is problematisch, want juist die eerste lagen herkennen de basispatronen waar alles op voortbouwt.

Waarom gebeurt dit?

Het heeft te maken met hoe neurale netwerken rekenen. Tussen elke laag zit een zogenaamde "activatiefunctie" — een wiskundige truc die bepaalt of een neuron "vuurt" of niet. Oude functies zoals de sigmoid (die output tussen 0 en 1 geeft) hebben een vervelende eigenschap: hun "helling" wordt heel vlak bij extreme waarden.

Wanneer je tijdens backpropagation door zo'n vlakke helling heen rekent, vermenigvuldig je steeds met hele kleine getallen. Doe dat tien lagen achter elkaar, en je signaal is praktisch nul geworden. Alsof je elke keer 0,1 vermenigvuldigt met 0,1 — na een paar keer heb je bijna niks meer over.

Hoe lossen we het op?

De AI-wereld heeft hier slim op gereageerd:

ReLU-activatiefuncties: in plaats van sigmoid gebruiken moderne netwerken vaak ReLU (Rectified Linear Unit). Die heeft een veel steilere helling en vermijdt het probleem grotendeels
Residual connections: technieken zoals in ResNet voegen "snelwegen" toe door het netwerk heen, zodat signalen niet door álle lagen hoeven
Betere initialisatie: slimme manieren om de begingewichten te kiezen, zodat signalen niet meteen wegzakken
Batch normalization: een techniek die de data tussen lagen genormaliseerd houdt, waardoor extreme waarden (en dus vlakke hellingen) minder voorkomen

Waar kom je het tegen?

Het vanishing gradient probleem was jarenlang dé bottleneck voor deep learning. Voor 2010 was het bijna onmogelijk om netwerken met meer dan een paar lagen te trainen. De doorbraken die ChatGPT, Stable Diffusion en andere moderne AI mogelijk maakten, kwamen pas toen onderzoekers dit probleem wisten te omzeilen.

Als je zelf experimenteert met neurale netwerken (bijvoorbeeld in TensorFlow, PyTorch of Keras), merk je het wanneer je trainingsproces "vastloopt" — de loss daalt niet meer, vooral niet in de vroege lagen. Dan is de kans groot dat je tegen vanishing gradients aanloopt.

Moderne architecturen zoals Transformers (de basis van ChatGPT, Claude, Gemini) zijn specifiek ontworpen om dit probleem te vermijden. Ze gebruiken attention-mechanismen en slimme normalisatie-trucs.

Wat kun je ermee?

Als je aan de slag gaat met je eigen AI-modellen, is het goed om te weten dat niet elke architectuur zomaar diep kan worden gemaakt. Kies moderne activatiefuncties, gebruik technieken als residual connections, en monitor tijdens het trainen of alle lagen wel echt bijleren. Veel frameworks tonen je per laag hoeveel de gewichten veranderen — als die cijfers bij de eerste lagen bijna nul zijn, weet je dat je vanishing gradients hebt.

Het mooie is: de meeste kant-en-klare modellen hebben dit probleem al opgelost. Maar begrip van hoe het werkt helpt je om betere keuzes te maken als je zelf modellen bouwt of fine-tunet.