Inferentie - AI Fabriek

Inferentie is het moment waarop een AI-model een vraag beantwoordt of een taak uitvoert — de tegenhanger van training. Elke prompt die je verstuurt triggert een inferentie. Bij API-gebruik betaal je per inferentie.

SNELLE WEETJES

DefinitieModel gebruikt geleerde kennis

vs. TrainingGebruik vs. leren

KostenPer API-aanroep

LokaalVia Ollama / self-hosted

Wat is inferentie?

In de context van AI is inferentie het moment waarop een getraind model een vraag beantwoordt of een taak uitvoert — dus wanneer je ChatGPT iets vraagt en het antwoord krijgt. Het is de tegenhanger van “training”: training is het leerproces, inferentie is het gebruik van wat geleerd is.

Training vs. inferentie

Training verbruikt enorme hoeveelheden energie en rekenkracht en gebeurt één keer (of periodiek bij updates). Inferentie is wat er elke keer plaatsvindt als jij een prompt verstuurt — het model berekent op basis van zijn geleerde gewichten het meest waarschijnlijke antwoord. Inferentie is veel goedkoper dan training maar telt op bij miljoenen dagelijkse gebruikers.

Lokale vs. cloud inferentie

Cloud inferentie: jouw prompt reist naar de servers van OpenAI of Anthropic, wordt verwerkt, en het antwoord komt terug. Lokale inferentie: het model draait op jouw eigen computer of server via tools zoals Ollama. Lokale inferentie is privacy-vriendelijker maar vergt krachtige hardware.

Waarom relevant?

Als je AI via een API gebruikt, betaal je voor elke inferentie-aanroep — dus elke keer dat een model een vraag beantwoordt. Inferentiekosten zijn de voornaamste variabele kostenfactor bij het schalen van AI-toepassingen. Modellen die efficiënter inferentie uitvoeren (via kwantisatie of MoE-architectuur) zijn direct goedkoper in gebruik.

Gerelateerde begrippen

LLM — Large Language ModelEen LLM (Large Language Model) is een AI-model getraind op enorme hoeveelheden tekst.TokenEen token is de basiseenheid waarmee AI-modellen tekst verwerken en aanrekenen.QuantizationQuantization maakt AI-modellen kleiner en sneller door de precisie van gewichten te verlagen van 32-bit naar 4-bit of…OllamaOllama maakt het draaien van open-source AI-modellen op je eigen computer eenvoudig.

Aliassen

AI inferentiemodel inferenceinference callinferentiekostenforward pass

Laatst bijgewerkt: 19 april 2026