Alle termenFundamenten & kernconcepten

Wat is AI Inference?

Het moment waarop een getraind AI-model daadwerkelijk aan het werk gaat — jij stelt een vraag of geeft input, het model geeft direct een antwoord of voorspelling. Denk aan ChatGPT die je vraag beantwoordt.

Ook bekend als: inference, inferentie, AI-inferentie

Wat is AI Inference eigenlijk?

AI Inference is het moment waarop een AI-model zijn geleerde kennis toepast. Je hebt een vraag, een foto, een tekst — en het model geeft je een antwoord, etiket of voorspelling. Het is het "aan het werk"-gedeelte van AI, het moment waarop jij er als gebruiker iets van merkt.

Denk aan het verschil tussen leren fietsen en daadwerkelijk fietsen. Training is de fase waarin het model leert — duizenden voorbeelden bestuderen, patronen ontdekken, verbindingen leggen. Inference is het moment waarop je op de fiets stapt en rijdt: je gebruikt wat je geleerd hebt, zonder opnieuw te leren.

Wanneer je in ChatGPT een vraag typt en een antwoord terugkrijgt, gebeurt er inference. Het model is al getraind (dat kostte maanden en miljoenen), maar nu past het die kennis toe op jouw specifieke vraag. Dat gaat snel — seconden — en kost relatief weinig rekenkracht vergeleken met de training zelf.

Waarom is inference belangrijk voor bedrijven?

Voor organisaties die AI in productie gebruiken, is inference waar de échte kosten zitten. Training doe je één keer (of af en toe opnieuw), maar inference gebeurt duizenden of miljoenen keren per dag.

Stel je een webshop voor die productaanbevelingen doet. Elke keer dat een klant inlogt, draait er een inference: het model kijkt naar eerdere aankopen en voorspelt wat deze persoon interessant vindt. Dat gebeurt misschien wel 100.000 keer per dag. De snelheid en kosten van die inference bepalen of het systeem schaalbaar is.

Daarom optimaliseren bedrijven vaak specifiek voor inference: kleinere modellen, snellere chips, slimmere caching. Een model dat 10 milliseconden sneller antwoordt, scheelt bij miljoenen verzoeken enorm in serverkosten en gebruikerservaring.

Training versus inference — het verschil in de praktijk

Training is intensief en eenmalig (of periodiek). Je hebt grote datasets nodig, krachtige GPU's, en het kan dagen tot maanden duren. Het resultaat is een getraind model — een bestand met miljoenen parameters die patronen vastleggen.

Inference is licht en continu. Je neemt dat getrainde model, geeft het nieuwe data (een foto, een zin, een vraag) en het produceert direct output. Geen aanpassing van het model, geen leerproces — puur toepassen. Dat kan op een laptop, een smartphone, of in de cloud. Het gaat om snelheid en efficiëntie.

Een mooi voorbeeld: een spamfilter. De training gebeurde ooit op miljoenen e-mails, waarbij het model leerde welke patronen bij spam horen. Maar elke keer dat jij nu een e-mail ontvangt, doet de filter inference: is dit spam of niet? Die check duurt een fractie van een seconde.

Waar kom je inference tegen?

Praktisch overal waar je AI "live" ziet werken:

Chatbots en assistenten — ChatGPT, Claude, Gemini, Copilot: elk antwoord is inference
Spraakherkenning — Siri, Google Assistant, Alexa: je stem wordt omgezet naar tekst via inference
Beeldherkenning — Google Photos herkent gezichten, auto's detecteren voetgangers, beveiligingscamera's spotten verdacht gedrag
Aanbevelingssystemen — Netflix, Spotify, Amazon: elke suggestie is inference op basis van jouw gedrag
Fraudedetectie — banken checken transacties real-time: inference beslist of iets verdacht is
Vertaalsoftware — DeepL, Google Translate: elke vertaling is inference
Zoekmachines — Google's ranking, of het begrijpen van je zoekvraag: inference

In al deze gevallen is het model al getraind. Wat jij ziet, is het model dat zijn kennis toepast op jouw specifieke situatie — dat is inference.

Waarom je dit moet weten als je AI inzet

Als je overweegt om AI in je bedrijf of product te gebruiken, is inference waar je écht op let. Niet alleen: werkt het model goed? Maar ook: hoe snel geeft het antwoord? Hoeveel kost het per verzoek? Kan het miljoenen verzoeken per dag aan?

Inference-optimalisatie is een apart vakgebied geworden. Bedrijven gebruiken speciale chips (zoals Google's TPU's of NVIDIA's inferentie-GPU's), verkleinen modellen zonder accuraatheid te verliezen, of draaien modellen lokaal op apparaten (edge inference) om latentie en kosten te verlagen.

Begrijp je het verschil tussen training en inference, dan snap je ook waarom sommige AI-diensten gratis zijn (de training is al gebeurd, inference is goedkoop bij schaal) en andere duur (real-time inference op grote modellen kost veel rekenkracht).

Wat kun je hier nu mee?

Als je AI-tools gebruikt, realiseer je dat elk antwoord of voorspelling inference is — het model past toe wat het ooit leerde. Als je AI wilt inzetten in je organisatie, denk dan na over inference-kosten en -snelheid: hoeveel verzoeken verwacht je? Hoe snel moet het antwoord zijn? Kun je met een kleiner, sneller model hetzelfde bereiken?

Inference is de brug tussen AI-onderzoek en praktische waarde. Het is het moment waarop een slim algoritme iets nuttigs doet voor jou — en dat is uiteindelijk waar het om draait.