Wat is Mini-Batch Gradient Descent?
Een slimme tussenvorm die een AI-model niet met alle data tegelijk traint, maar in kleine hapklare brokjes — sneller dan één-voor-één, nauwkeuriger dan alles in één keer.

Hoe werkt het eigenlijk?
Stel je voor dat je een kind leert fietsen. Je kunt drie dingen doen: na elke meter stoppen en corrigeren (superprecies, maar eindeloos langzaam), of het kind de hele straat laten fietsen voordat je feedback geeft (snel, maar veel fouten maken onderweg), of — en dat is de gouden middenweg — om de tien meter even stoppen en bijsturen.
Dat laatste is precies wat mini-batch gradient descent doet. Wanneer een AI-model leert (bijvoorbeeld om katten van honden te onderscheiden), moet het duizenden voorbeelden doornemen en telkens zichzelf bijstellen. Maar moet het dat na élk voorbeeld doen? Of pas nadat het álles heeft gezien?
Mini-batch gradient descent kiest voor tussenoplossing: het neemt een klein groepje voorbeelden (bijvoorbeeld 32 of 64 plaatjes), bekijkt wat er fout ging in dat groepje, en past dan zijn interne instellingen bij. Daarna pakt het het volgende groepje. Zo'n groepje noemen we een mini-batch — vandaar de naam.
Waarom is dat handig?
De alternatieven hebben allebei nadelen:
Eén voorbeeld per keer (stochastic gradient descent): supergevoelig voor toevalligheden. Als je net een raar kattenplaatje tegenkomt, gaat het model direct overcompenseren. Het is als leren fietsen met oogkleppen op — je ziet de details, maar mist het grotere patroon.
Alle voorbeelden tegelijk (batch gradient descent): veel stabieler, maar waanzinnig traag én hongerig naar computergeheugen. Bij miljoenen plaatjes past dat gewoonweg niet in het werkgeheugen van je computer.
Mini-batch gradient descent combineert het beste van beide: het is snel genoeg om vlot door je data te gaan, en stabiel genoeg om niet bij elk toevallig voorbeeld de verkeerde kant op te schieten. Het is geen compromis — het is vaak gewoon de slimste keuze.
Een voorbeeld uit de praktijk
Stel: je traint een AI om spammail te herkennen. Je hebt 100.000 e-mails. Met mini-batches van 128 e-mails doe je dit:
Pak 128 e-mails uit je dataset
Laat het model raden: spam of niet-spam?
Bereken hoe ver het ernaast zat
Pas de interne instellingen bij op basis van die 128 e-mails
Herhaal met de volgende 128
Dat betekent dat je model 100.000 ÷ 128 ≈ 781 updates krijgt in één epoch (één keer door alle data). Dat is veel vaker bijsturen dan wanneer je zou wachten tot alle 100.000 e-mails zijn gezien, maar veel minder chaotisch dan 100.000 losse updates.
Bijkomend voordeel: moderne computerchips (GPU's) zijn gebouwd om meerdere berekeningen tegelijk te doen. Een mini-batch van 128 voorbeelden verwerken ze bijna net zo snel als 1 voorbeeld — dus je krijgt gratis snelheid cadeau.
Waar kom je het tegen?
Mini-batch gradient descent is de standaard in bijna alle moderne AI-frameworks:
PyTorch en TensorFlow gebruiken het automatisch als je een DataLoader aanmaakt met een batch_size parameter
Keras vraagt je bij model.fit() om een batch_size op te geven (vaak 32, 64 of 128)
Scikit-learn heeft het ingebouwd in zijn SGDClassifier en vergelijkbare tools
Cloud-diensten zoals Google Vertex AI, AWS SageMaker en Azure Machine Learning gebruiken het achter de schermen bij hun AutoML-pipelines
Als je een AI-model traint — of je nu zelf code schrijft of een no-code platform gebruikt — werk je vrijwel zeker met mini-batches, ook al zie je de term niet expliciet.
Wat kun je er zelf mee?
Als je zelf AI-modellen traint, is de batch size één van de knoppen waar je aan kunt draaien:
Kleinere batches (16, 32): sneller door je data, meer updates, maar wat wisselvalligere resultaten
Grotere batches (128, 256): stabielere updates, maar meer geheugen nodig en soms net iets minder goed in het vinden van slimme oplossingen
Begin met een standaardwaarde (32 of 64) en experimenteer als je model niet goed genoeg leert. Het is een van de simpelste manieren om je training te versnellen of te verfijnen — zonder dat je hoeft te sleutelen aan de architectuur van je netwerk zelf.
Veelgestelde vragen over Mini-Batch Gradient Descent
De drie meest gestelde vragen over dit onderwerp, kort beantwoord.
Wat is Mini-Batch Gradient Descent?
Een slimme tussenvorm die een AI-model niet met alle data tegelijk traint, maar in kleine hapklare brokjes — sneller dan één-voor-één, nauwkeuriger dan alles in één keer.
Waarom is Mini-Batch Gradient Descent belangrijk?
Stel je voor dat je een kind leert fietsen. Je kunt drie dingen doen: na elke meter stoppen en corrigeren (superprecies, maar eindeloos langzaam), of het kind de hele straat laten fietsen voordat je feedback geeft (snel, maar veel fouten maken onderweg), of — en dat is de gouden middenweg — om de tien meter even stoppen en bijsturen.
Hoe wordt Mini-Batch Gradient Descent toegepast?
Dat laatste is precies wat mini-batch gradient descent doet. Wanneer een AI-model leert (bijvoorbeeld om katten van honden te onderscheiden), moet het duizenden voorbeelden doornemen en telkens zichzelf bijstellen. Maar moet het dat na élk voorbeeld doen? Of pas nadat het álles heeft gezien?