Alle termenAI-infrastructuur, MLOps & frameworks

Wat is Federated Serving?

Een manier om AI-modellen lokaal op apparaten te laten draaien, zonder dat data naar een centrale server hoeft. Denk aan autocorrectie op je telefoon die leert van jouw tikfouten, zonder ze naar Apple of Google te sturen.

Wat is Federated Serving eigenlijk?

Federated Serving is een techniek waarbij een AI-model zijn werk doet op jouw eigen apparaat — je telefoon, laptop of tablet — in plaats van op een server ergens in de cloud. Het model zit letterlijk bij jou, en geeft daar antwoorden of voorspellingen zonder dat je data eerst naar een extern datacenter gestuurd moet worden.

Denk aan het verschil tussen een dokter die bij je thuis langskómt versus dat je naar een ziekenhuis moet. Bij Federated Serving komt het model naar jou toe, in plaats van andersom.

De term hangt nauw samen met Federated Learning (waarbij modellen lokaal leren van je data), maar bij Federated Serving gaat het puur om het _gebruiken_ van het model. Het model is al getraind — het voert nu gewoon zijn taak uit, zonder dat jouw input de deur uit gaat.

Hoe werkt het in de praktijk?

Stel: je gebruikt de typesuggesties op je telefoon. Bij traditionele AI zou elke zin die je typt naar een server gestuurd worden, waar een groot model voorspelt wat je volgende woord is. Bij Federated Serving draait er een compact model rechtstreeks op je telefoon. Dat model analyseert je tikgedrag lokaal en geeft suggesties — alles blijft op je apparaat.

Dit vraagt wel wat:

Een lichter model — je telefoon heeft niet de rekenkracht van een datacenter, dus het model moet kleiner en efficiënter zijn (vaak via technieken als quantisatie of pruning)
Lokale opslag — het model moet passen in het geheugen van je apparaat
Updates — als er een nieuw model komt, moet je apparaat dat downloaden en vervangen

Het voordeel: snelheid en privacy. Er is geen internetverbinding nodig, geen vertraging door een server, en niemand ziet je data.

Waarom zou je hier iets aan hebben?

Er zijn een paar situaties waar Federated Serving echt uitblinkt:

Privacy-gevoelige toepassingen — medische apps, bankieren, persoonlijke assistenten. Als je niet wilt dat je zoekgeschiedenis, gezondheidsdata of financiële vragen ergens op een server belanden, is lokaal draaien ideaal.
Offline beschikbaarheid — stel je rijdt door een gebied zonder 4G. Een lokaal model blijft gewoon werken.
Lage latency — geen wachttijd voor een serverrespons. Handig bij real-time toepassingen zoals vertaling, spraakherkenning of fotobewerkingen.
Kosten — je bespaart serverkosten en bandbreedte, omdat je niet voor elke vraag een API-call hoeft te maken.

Het nadeel: je model is vaak minder krachtig dan wat een grote cloud-server kan draaien. Een GPT-4-achtig model past simpelweg niet op je telefoon. Dus er is altijd een afweging tussen kracht en privacy.

Waar kom je het tegen?

Federated Serving zie je steeds vaker in consumentenproducten:

Apple's On-Device Intelligence — Siri, Face ID, typesuggesties draaien lokaal op je iPhone of Mac via Apple's Neural Engine
Google Gboard — voorspellende tekst en emoji-suggesties gebeuren deels op je Android-toestel
Microsoft Edge — sommige AI-functies in de browser draaien lokaal via ONNX Runtime
Samsung Galaxy AI — beeldverbetering en vertaalfuncties die op het toestel zelf werken
Whisper.cpp en andere edge AI-tools — open-source implementaties die spraakherkenning lokaal mogelijk maken

Ook in de industrie zie je dit: slimme camera's die lokaal gezichten herkennen, of fabrieksapparatuur die kwaliteitscontrole uitvoert zonder data naar buiten te sturen.

Hoe verschilt het van edge AI?

Je hoort ook wel de term edge AI — dat is eigenlijk hetzelfde concept, maar breder. Edge AI betekent: AI draait op de "rand" van het netwerk (edge), dus op apparaten dicht bij de gebruiker. Federated Serving is een specifieke vorm daarvan, met de nadruk op het serveren (gebruiken) van modellen in een federatieve context — meestal gekoppeld aan een systeem waar meerdere apparaten dezelfde modelversie draaien.

Denk aan duizenden telefoons die allemaal hetzelfde toetsenbordmodel gebruiken, versus één slimme deurbel met een custom model. Beide zijn edge AI, maar het eerste is meer Federated Serving.

Wat kun je ermee?

Als ondernemer of professional kun je Federated Serving overwegen als:

Je app of dienst privacy-gevoelige data verwerkt (gezondheid, financiën, persoonlijke communicatie)
Je gebruikers wilt bedienen zonder constante internetverbinding
Je serverkosten wilt verlagen door werk naar apparaten te verschuiven
Je wilt voldoen aan strenge privacywetgeving (AVG, GDPR) zonder complexe infrastructuur

Wil je dit zelf implementeren? Kijk naar frameworks als TensorFlow Lite, Core ML (Apple), ONNX Runtime of PyTorch Mobile. Deze tools helpen je om grote modellen om te zetten naar compacte versies die op apparaten draaien. Bedenk wel: niet elk model is geschikt — complexe taken vereisen nog steeds cloud-kracht. Maar voor veel alledaagse AI-toepassingen is lokaal draaien inmiddels realistisch én voordelig.