Direct naar inhoud
Alle termenFundamenten & kernconcepten

Wat is Batch?

Een groepje data-voorbeelden dat een AI-model in één keer verwerkt tijdens training of gebruik — zoals een stapeltje rekeningen dat je in één keer afhandelt in plaats van één voor één.

Ook bekend als: batch

Wat is Batch

Wat is een batch eigenlijk?

Stel je voor dat je 10.000 sollicitatiebrieven moet lezen. Je zou ze één voor één kunnen bekijken, maar dat duurt lang en je brein raakt niet goed op gang. Effectiever is om er telkens 32 tegelijk te pakken, die door te nemen, en dan weer 32 nieuwe. Dat principe heet batching.

Bij AI werkt het precies zo. Een batch is een groepje data-voorbeelden — bijvoorbeeld 32 foto's, 64 zinnen of 128 klantenrecords — dat een model in één keer analyseert. In plaats van elke foto afzonderlijk door het model te sturen, stuur je er een stapeltje doorheen. Dat scheelt rekenkracht en tijd.

De grootte van een batch noemen we de batch size. Kleine batches (16 voorbeelden) geven sneller feedback tijdens training, maar zijn minder efficiënt. Grote batches (256 of meer) zijn sneller te verwerken door de computer, maar vragen meer geheugen en kunnen soms minder precies leren.

Waarom in stapeltjes werken?

Computers — en zeker GPU's die AI-modellen trainen — zijn gebouwd om veel identieke berekeningen tegelijk uit te voeren. Als je ze één foto geeft, zijn ze onderbenut. Geef je er 32, dan kunnen ze alle 32 parallel verwerken en is de hardware veel beter benut.

Daarom delen data-wetenschappers hun trainingsdata altijd op in batches. Een dataset van 100.000 foto's wordt geknipt in bijvoorbeeld 3.125 batches van 32 foto's. Het model verwerkt batch voor batch, en na elke batch wordt er een klein beetje bijgeleerd.

Dat bijleren gebeurt ook per batch: het model berekent hoeveel fout het zat bij die 32 voorbeelden, en past z'n interne instellingen aan. Dat heet een weight update. Hoe kleiner de batch, hoe vaker het model bijstuurt — maar ook hoe grilliger die correcties kunnen zijn. Hoe groter de batch, hoe stabieler, maar minder vaak.

Een voorbeeld uit de praktijk

Stel: je traint een model dat klantenreviews moet classificeren als positief of negatief. Je hebt 50.000 reviews in je dataset. Je kiest een batch size van 100.

Dat betekent:

  • Het model pakt telkens 100 reviews tegelijk

  • Na 500 batches heeft het de hele dataset gezien (dat heet één epoch)

  • Na elke batch past het model z'n interne waarden iets aan

  • Aan het einde van de epoch begin je opnieuw met een volgende ronde door alle 50.000 reviews

Als je batch size te klein kiest (bijvoorbeeld 8), duurt training lang en springt het model nerveus heen en weer. Te groot (bijvoorbeeld 2.000) en je krijgt geheugenproblemen, plus het model leert misschien minder genuanceerd.

Waar kom je het tegen?

  • Training van modellen — elke training-tool (PyTorch, TensorFlow, Hugging Face) vraagt om een batch size in te stellen

  • Inferentie bij veel data tegelijk — als je 1.000 productfoto's door een AI wilt halen, wordt dat in batches gedaan voor snelheid

  • GPU-geheugenmeldingen — "Out of memory" komt vaak door te grote batches: de GPU kan niet alle data tegelijk aan

  • Clouddiensten — platforms als Vertex AI of SageMaker optimaliseren automatisch batch sizes voor je, maar je kunt ze handmatig aanpassen

  • Real-time AI — chatbots en spraakherkenning werken vaak met batch size 1 (één zin tegelijk), omdat je geen tijd hebt om te wachten op een vol stapeltje

Wat kun je ermee?

Als je zelf AI-modellen traint of fine-tunet, is batch size één van de eerste knoppen die je draait. Te klein en je training duurt dagen; te groot en je krijgt crashes of matige resultaten. De kunst is een balans vinden tussen snelheid, geheugen en leerprestaties.

Ook als je AI-diensten afneemt is het handig om te weten: als een leverancier zegt "wij verwerken jullie data in batches van 500", weet je dat het geen real-time analyse is — maar wel efficiënt en goedkoper dan elk item apart. Zo kun je beter inschatten wat haalbaar is qua snelheid en kosten.

FAQ

Veelgestelde vragen over Batch

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Batch?

Een groepje data-voorbeelden dat een AI-model in één keer verwerkt tijdens training of gebruik — zoals een stapeltje rekeningen dat je in één keer afhandelt in plaats van één voor één.

Waarom is Batch belangrijk?

Stel je voor dat je 10.000 sollicitatiebrieven moet lezen. Je zou ze één voor één kunnen bekijken, maar dat duurt lang en je brein raakt niet goed op gang. Effectiever is om er telkens 32 tegelijk te pakken, die door te nemen, en dan weer 32 nieuwe. Dat principe heet batching.

Hoe wordt Batch toegepast?

Bij AI werkt het precies zo. Een batch is een groepje data-voorbeelden — bijvoorbeeld 32 foto's, 64 zinnen of 128 klantenrecords — dat een model in één keer analyseert. In plaats van elke foto afzonderlijk door het model te sturen, stuur je er een stapeltje doorheen. Dat scheelt rekenkracht en tijd.

Deel: