Inferentie

Inferentie is het moment waarop een AI-model een vraag beantwoordt of een taak uitvoert — de tegenhanger van training. Elke prompt die je verstuurt triggert een inferentie. Bij API-gebruik betaal je per inferentie.
SNELLE WEETJES
DefinitieModel gebruikt geleerde kennis
vs. TrainingGebruik vs. leren
KostenPer API-aanroep
LokaalVia Ollama / self-hosted

Wat is inferentie?

In de context van AI is inferentie het moment waarop een getraind model een vraag beantwoordt of een taak uitvoert — dus wanneer je ChatGPT iets vraagt en het antwoord krijgt. Het is de tegenhanger van “training”: training is het leerproces, inferentie is het gebruik van wat geleerd is.

Training vs. inferentie

Training verbruikt enorme hoeveelheden energie en rekenkracht en gebeurt één keer (of periodiek bij updates). Inferentie is wat er elke keer plaatsvindt als jij een prompt verstuurt — het model berekent op basis van zijn geleerde gewichten het meest waarschijnlijke antwoord. Inferentie is veel goedkoper dan training maar telt op bij miljoenen dagelijkse gebruikers.

Lokale vs. cloud inferentie

Cloud inferentie: jouw prompt reist naar de servers van OpenAI of Anthropic, wordt verwerkt, en het antwoord komt terug. Lokale inferentie: het model draait op jouw eigen computer of server via tools zoals Ollama. Lokale inferentie is privacy-vriendelijker maar vergt krachtige hardware.

Waarom relevant?

Als je AI via een API gebruikt, betaal je voor elke inferentie-aanroep — dus elke keer dat een model een vraag beantwoordt. Inferentiekosten zijn de voornaamste variabele kostenfactor bij het schalen van AI-toepassingen. Modellen die efficiënter inferentie uitvoeren (via kwantisatie of MoE-architectuur) zijn direct goedkoper in gebruik.