Inferentie
Wat is inferentie?
In de context van AI is inferentie het moment waarop een getraind model een vraag beantwoordt of een taak uitvoert — dus wanneer je ChatGPT iets vraagt en het antwoord krijgt. Het is de tegenhanger van “training”: training is het leerproces, inferentie is het gebruik van wat geleerd is.
Training vs. inferentie
Training verbruikt enorme hoeveelheden energie en rekenkracht en gebeurt één keer (of periodiek bij updates). Inferentie is wat er elke keer plaatsvindt als jij een prompt verstuurt — het model berekent op basis van zijn geleerde gewichten het meest waarschijnlijke antwoord. Inferentie is veel goedkoper dan training maar telt op bij miljoenen dagelijkse gebruikers.
Lokale vs. cloud inferentie
Cloud inferentie: jouw prompt reist naar de servers van OpenAI of Anthropic, wordt verwerkt, en het antwoord komt terug. Lokale inferentie: het model draait op jouw eigen computer of server via tools zoals Ollama. Lokale inferentie is privacy-vriendelijker maar vergt krachtige hardware.
Waarom relevant?
Als je AI via een API gebruikt, betaal je voor elke inferentie-aanroep — dus elke keer dat een model een vraag beantwoordt. Inferentiekosten zijn de voornaamste variabele kostenfactor bij het schalen van AI-toepassingen. Modellen die efficiënter inferentie uitvoeren (via kwantisatie of MoE-architectuur) zijn direct goedkoper in gebruik.