Direct naar inhoud
Alle termenAI-infrastructuur, MLOps & frameworks

Wat is Tensor Parallelism?

Een manier om één enorm AI-model over meerdere GPU's te verdelen door de rekenwerk binnen elke laag op te splitsen, zodat het model überhaupt past en sneller traint.

Wat is Tensor Parallelism

Waarom zou je een model over meerdere chips verdelen?

Stel je voor: je bouwt een AI-model met 70 miljard parameters — zo'n berg getallen dat het niet eens op één GPU past. Wat dan? Tensor Parallelism is de truc waarmee je die ene gigantische laag van je model opknipt in stukjes en elk stukje op een andere chip zet. Die chips werken tegelijk aan hetzelfde rekensommetje, en voegen hun antwoorden weer samen. Zo kun je véél grotere modellen trainen of gebruiken dan één GPU aankan.

De naam klinkt technisch, maar het idee is simpel: in plaats van wachten tot één chip het hele werk doet, deel je het werk op — net zoals je met vrienden een puzzel sneller legt door ieder een stuk te pakken.

Hoe werkt het eigenlijk?

Een AI-model bestaat uit lagen (layers). Elke laag doet een stuk van de berekening. Bij Tensor Parallelism splits je de matrix-berekeningen binnen zo'n laag op over meerdere GPU's. Concreet:

  • Je verdeelt de gewichten: de getallen die het model gebruikt om te rekenen, worden verdeeld over bijvoorbeeld vier GPU's.

  • Elke GPU rekent zijn deel uit: alle GPU's werken tegelijk aan dezelfde input, maar ieder met zijn eigen stukje van de berekening.

  • De resultaten worden samengevoegd: de outputs van alle GPU's worden bij elkaar opgeteld of gecombineerd tot het eindantwoord voor die laag.

  • Dat herhaalt zich voor elke laag in het model.

Het verschil met andere verdeel-trucjes (zoals Data Parallelism of Pipeline Parallelism) is dat je hier binnen één laag het werk verdeelt, niet over verschillende lagen of verschillende stukjes trainingsdata. Dat maakt het mogelijk om echt enorme lagen te gebruiken.

Een voorbeeld uit de praktijk

Als je een groot taalmodel traint met 100 miljard parameters, past de hele zaak niet op één GPU van 80 GB geheugen. Met Tensor Parallelism verdeel je het model over acht GPU's die allemaal tegelijk rekenen. Elke GPU heeft dan een achtste van de gewichten in z'n geheugen staan. Samen kunnen ze het volledige model draaien — iets wat zonder deze techniek onmogelijk was.

Bedrijven die grote modellen bouwen (denk aan GPT-, LLaMA- of Gemini-achtige systemen) gebruiken Tensor Parallelism standaard. Zonder dit trucje zou training weken of maanden langer duren, of helemaal niet lukken.

Waar kom je het tegen?

Je merkt Tensor Parallelism zelf niet direct — het is een achter-de-schermen techniek. Maar als je met grote modellen werkt, loop je ertegen aan:

  • Training frameworks: tools zoals PyTorch FSDP, Megatron-LM (van NVIDIA), DeepSpeed (van Microsoft) en JAX ondersteunen Tensor Parallelism ingebouwd.

  • Cloud-trainingsomgevingen: als je via AWS SageMaker, Google Cloud TPU of Azure ML grote modellen traint, wordt dit vaak automatisch toegepast.

  • Open-source grote modellen: als je een LLaMA-model lokaal wilt draaien met meerdere GPU's, gebruiken tools zoals vLLM of TensorRT-LLM Tensor Parallelism om het te verdelen.

  • Inferentie-servers: als je een groot model moet hosten voor productie, helpt Tensor Parallelism om sneller antwoorden te geven door meerdere chips tegelijk in te zetten.

Je hoeft het niet zelf te programmeren — de frameworks doen het zware werk — maar als je ooit een foutmelding ziet over "model doesn't fit in memory", is Tensor Parallelism vaak de oplossing.

Wat betekent dit voor jou?

Als je met grote AI-modellen werkt, is Tensor Parallelism het verschil tussen "kan niet" en "lukt". Wil je zelf grote modellen trainen of fine-tunen? Dan is het handig om te weten dat deze techniek bestaat en hoe je frameworks ermee omgaan. Kijk eens naar de documentatie van Megatron-LM of DeepSpeed — beide leggen uit hoe je Tensor Parallelism configureert. En als je modellen huurt in de cloud: vraag je leverancier of ze automatische model-parallellisatie ondersteunen. Dan hoef je zelf niets te doen, en draait je model gewoon sneller en groter.

FAQ

Veelgestelde vragen over Tensor Parallelism

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Tensor Parallelism?

Een manier om één enorm AI-model over meerdere GPU's te verdelen door de rekenwerk binnen elke laag op te splitsen, zodat het model überhaupt past en sneller traint.

Waarom is Tensor Parallelism belangrijk?

Stel je voor: je bouwt een AI-model met 70 miljard parameters — zo'n berg getallen dat het niet eens op één GPU past. Wat dan? Tensor Parallelism is de truc waarmee je die ene gigantische laag van je model opknipt in stukjes en elk stukje op een andere chip zet. Die chips werken tegelijk aan hetzelfde rekensommetje, en voegen hun antwoorden weer samen. Zo kun je véél grotere modellen trainen of gebruiken dan één GPU aankan.

Hoe wordt Tensor Parallelism toegepast?

De naam klinkt technisch, maar het idee is simpel: in plaats van wachten tot één chip het hele werk doet, deel je het werk op — net zoals je met vrienden een puzzel sneller legt door ieder een stuk te pakken.

Deel: