Direct naar inhoud
Alle termenNeurale netwerken & deep learning

Wat is Mixture of Experts?

Een AI-architectuur waarbij meerdere gespecialiseerde mini-modellen (experts) samenwerken, en een routeringslaag beslist welke expert het beste kan antwoorden op een specifieke vraag.

Wat is Mixture of Experts

Wat is een Mixture of Experts eigenlijk?

Stel je voor dat je een grote afdeling hebt met specialisten: iemand die alles weet over belastingen, iemand die expert is in arbeidsrecht, en iemand die alle ins en outs van marketing kent. Als er een vraag binnenkomt, zorg je dat die bij de juiste specialist terechtkomt — je stuurt de belastingvraag niet naar de marketeer.

Precies zo werkt een Mixture of Experts (vaak afgekort als MoE): in plaats van één groot neuraal netwerk dat alles moet doen, heb je meerdere kleinere netwerken (de "experts") die elk gespecialiseerd zijn in bepaalde patronen of taken. Een slimme routeringslaag — een soort portier of dispatcher — bekijkt elke input en stuurt die door naar de experts die er het beste mee overweg kunnen. Meestal worden er twee of drie experts tegelijk geactiveerd, de rest blijft uit.

Het voordeel? Je kunt enorm grote modellen bouwen zonder dat elke berekening het hele model hoeft te doorlopen. Alleen de relevante experts worden wakker. Dat maakt MoE-modellen efficiënter: ze kunnen meer kennis bevatten, terwijl ze per vraag minder rekenkracht gebruiken dan een traditioneel model van dezelfde omvang.

Hoe werkt het in de praktijk?

Binnen het model zit een "gating network" — de routeringslaag. Die krijgt de input (bijvoorbeeld een zin of een vraag) en berekent voor elke expert een score: hoe relevant is deze expert voor dit probleem? De experts met de hoogste scores worden geactiveerd en leveren hun antwoord. Die antwoorden worden gewogen (op basis van die scores) en samengevoegd tot één output.

De experts zijn meestal identieke netwerken qua architectuur, maar tijdens de training specialiseren ze zich vanzelf. De ene expert leert bijvoorbeeld goed te zijn in wiskundige redeneringen, een ander in creatieve tekst, weer een ander in feitelijke kennis. Dat gebeurt niet omdat iemand dat van tevoren programmeert, maar omdat het model tijdens het leren ontdekt dat specialisatie efficiënter is.

Een voorbeeld: een groot taalmodel met 8 experts per laag kan zestig miljard parameters bevatten, maar activeert per vraag misschien maar tien miljard. Je krijgt de kracht van een gigantisch model, met de snelheid van een kleiner model.

Waarom zou jij hier iets aan hebben?

Mixture of Experts is vooral interessant als je modellen wilt gebruiken die zowel krachtig als snel moeten zijn. Bedrijven die grote taalmodellen hosten, kunnen met MoE-architecturen hetzelfde prestatieniveau halen tegen lagere kosten: minder rekenkracht per antwoord betekent dat ze meer gebruikers kunnen bedienen met dezelfde hardware.

Voor jou als gebruiker merk je het verschil doordat bepaalde modellen sneller antwoorden terwijl ze toch veel kennis aan boord hebben. Als je zelf modellen traint of fine-tunet, kan MoE een optie zijn om een groter model te bouwen zonder dat je trainingstijd evenredig oploopt.

Er zit wel een addertje onder het gras: MoE-modellen zijn complexer om te trainen. De routering moet goed leren, en soms zie je dat het model sommige experts nauwelijks gebruikt (load balancing-problemen). Ook nemen ze meer geheugen in beslag, omdat alle experts in het model zitten — ook al worden ze niet allemaal tegelijk gebruikt.

Waar kom je het tegen?

Meerdere grote taalmodellen gebruiken Mixture of Experts onder de motorkap:

  • Mixtral van Mistral AI is een open-source MoE-model waarbij 8 experts per laag samenwerken

  • GPT-4 wordt door meerdere bronnen vermoed een MoE-architectuur te hebben (officieel niet bevestigd door OpenAI)

  • Gemini van Google gebruikt elementen van expert-routing in sommige versies

  • Grok van xAI zet MoE in voor efficiëntie bij grote schaal

Daarnaast zie je MoE terugkomen in onderzoek naar multimodale modellen (tekst + beeld + audio), waar verschillende experts zich specialiseren in verschillende modaliteiten.

Wat kun je er nu mee?

Als je aan de slag gaat met grote taalmodellen, loont het om te weten of een model een MoE-architectuur heeft. Dat verklaart vaak waarom een model relatief snel is ondanks zijn omvang. Bij het kiezen van een model voor een productieomgeving kan MoE een indicator zijn voor betere prijs-prestatieverhouding — mits de provider zijn infrastructuur goed heeft ingericht.

Ben je aan het experimenteren met eigen modellen? Open-source MoE-implementaties zoals Mixtral geven je de kans om met deze architectuur te spelen zonder vanaf nul te beginnen. En als je verder wilt lezen over hoe expert-routing precies werkt, zoek dan naar papers over "sparse mixture of experts" — daar wordt het concept tot in detail uitgelegd.

FAQ

Veelgestelde vragen over Mixture of Experts

De drie meest gestelde vragen over dit onderwerp, kort beantwoord.

Wat is Mixture of Experts?

Een AI-architectuur waarbij meerdere gespecialiseerde mini-modellen (experts) samenwerken, en een routeringslaag beslist welke expert het beste kan antwoorden op een specifieke vraag.

Waarom is Mixture of Experts belangrijk?

Stel je voor dat je een grote afdeling hebt met specialisten: iemand die alles weet over belastingen, iemand die expert is in arbeidsrecht, en iemand die alle ins en outs van marketing kent. Als er een vraag binnenkomt, zorg je dat die bij de juiste specialist terechtkomt — je stuurt de belastingvraag niet naar de marketeer.

Hoe wordt Mixture of Experts toegepast?

Precies zo werkt een Mixture of Experts (vaak afgekort als MoE): in plaats van één groot neuraal netwerk dat alles moet doen, heb je meerdere kleinere netwerken (de "experts") die elk gespecialiseerd zijn in bepaalde patronen of taken. Een slimme routeringslaag — een soort portier of dispatcher — bekijkt elke input en stuurt die door naar de experts die er het beste mee overweg kunnen. Meestal worden er twee of drie experts tegelijk geactiveerd, de rest blijft uit.

Deel: