Wat is Double Descent?
Een verrassend fenomeen waarbij AI-modellen eerst slechter worden als je ze complexer maakt, maar daarna — tegen alle verwachting in — juist weer beter presteren wanneer ze véél groter worden.

Eerst beter, dan slechter, dan... weer beter?
Stel je voor: je bakt een taart en voegt steeds meer ingrediënten toe. Eerst wordt de taart lekkerder, dan op een gegeven moment te zoet en plakkerig — en dan, als je nóg meer toevoegt en de verhoudingen compleet verandert, wordt-ie ineens weer verrassend goed. Klinkt raar? Dat is precies wat er met AI-modellen gebeurt.
Jarenlang dachten onderzoekers dat AI-modellen een simpel patroon volgden: een beetje complexiteit is goed, te veel complexiteit leidt tot overfitting — het model leert de trainingsdata uit z'n hoofd in plaats van écht te begrijpen. Dat heet de klassieke U-curve: eerst daalt de fout (goed), dan stijgt die weer (slecht).
Maar in 2019 ontdekten onderzoekers iets vreemds: als je een model nóg groter maakt — veel meer parameters geeft dan strikt nodig — dan gaat de prestatie ineens weer omhoog. Vandaar de naam: double descent. De fout daalt twee keer: eerst bij middelgrote modellen, en dan opnieuw bij enorm grote modellen.
Hoe werkt het eigenlijk?
Een AI-model heeft parameters — de instelknoppen die het tijdens training aanpast. Bij te weinig parameters kan het model niet genoeg leren (underfitting). Bij net genoeg parameters leert het goed, maar net iets te veel parameters zorgen voor overfitting: het model stampt voorbeelden uit z'n hoofd en generaliseert slecht naar nieuwe situaties.
Maar hier komt de twist: als je doorgaat en het model véél meer parameters geeft dan er trainingsvoorbeelden zijn, gebeurt er iets bijzonders. Het model krijgt zoveel vrijheid dat het niet meer hoeft te 'krampachtig' elk detail te onthouden. Het vindt als het ware een soepelere, algemene oplossing — een beetje zoals een kunstenaar die eerst stijf tekent, dan rommelig wordt, en dan met veel ervaring juist weer losser en zekerder werkt.
Dit fenomeen speelt bij verschillende factoren:
Aantal parameters (hoe groot is het model)
Hoeveelheid trainingsdata (hoeveel voorbeelden krijgt het)
Trainingsduur (hoe lang train je door)
Bij elk van deze dimensies zie je dezelfde dubbele dip: eerst beter, dan slechter, dan weer beter.
Waarom is dit belangrijk?
Double descent verklaart waarom moderne grote taalmodellen (zoals GPT, Claude, Gemini) zo goed werken. Ze zitten in die tweede 'descent' — ze zijn zo groot dat ze voorbij het overfitting-dal zijn. Dit botst met de oude wijsheid dat 'meer altijd slechter is na een bepaald punt'.
Het heeft ook praktische gevolgen:
Geen angst voor grote modellen: waar je vroeger voorzichtig was met te veel parameters, weten we nu dat 'veel groter' juist helpt.
Training-strategie: soms is langer doortrainen of meer data toevoegen effectiever dan je denkt.
Compute-keuzes: bedrijven investeren bewust in enorme modellen omdat ze weten dat ze in de 'goede' descent zitten.
Het fenomeen is waargenomen in supervised learning (met gelabelde data), maar ook in andere scenario's. Het verklaart deels waarom de AI-sprongen van de laatste jaren mogelijk waren: we zijn over de berg heen.
Waar kom je het tegen?
Je merkt double descent niet direct als gebruiker, maar het zit wel achter de schermen bij:
Grote taalmodellen (GPT-4, Claude, Gemini) — hun omvang is deels gebaseerd op dit inzicht.
Computer vision-modellen die beelden herkennen — ook daar geldt: soms is groter echt beter.
Wetenschappelijke papers over modelontwerp — double descent is een hot topic in ML-onderzoek sinds 2019.
Interne keuzes bij AI-teams — hoeveel parameters zetten we in, hoeveel data, hoe lang trainen we?
Als je zelf modellen traint (bijvoorbeeld met frameworks als PyTorch of TensorFlow), kun je double descent tegenkomen als je experimenteert met modelgrootte en ziet dat prestaties onverwacht omhoog schieten na een dal.
Wat kun je ermee?
Als je AI inzet of modellen bouwt, helpt het begrijpen van double descent je realistischer te zijn over wanneer 'groter' zin heeft. Het legt uit waarom bedrijven steeds grotere modellen bouwen — niet uit decadentie, maar omdat de theorie laat zien dat je dan weer in betere prestaties belandt. Voor eindgebruikers betekent het vooral dat de kracht van moderne AI niet per ongeluk komt: het is een bewuste keuze om modellen voorbij het overfitting-punt te duwen, de tweede afdaling in.
Veelgestelde vragen over Double Descent
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Double Descent?
Een verrassend fenomeen waarbij AI-modellen eerst slechter worden als je ze complexer maakt, maar daarna — tegen alle verwachting in — juist weer beter presteren wanneer ze véél groter worden.
Waarom is Double Descent belangrijk?
Stel je voor: je bakt een taart en voegt steeds meer ingrediënten toe. Eerst wordt de taart lekkerder, dan op een gegeven moment te zoet en plakkerig — en dan, als je nóg meer toevoegt en de verhoudingen compleet verandert, wordt-ie ineens weer verrassend goed. Klinkt raar? Dat is precies wat er met AI-modellen gebeurt.
Hoe wordt Double Descent toegepast?
Jarenlang dachten onderzoekers dat AI-modellen een simpel patroon volgden: een beetje complexiteit is goed, te veel complexiteit leidt tot overfitting — het model leert de trainingsdata uit z'n hoofd in plaats van écht te begrijpen. Dat heet de klassieke U-curve: eerst daalt de fout (goed), dan stijgt die weer (slecht).