Quantization - AI Fabriek

Quantization maakt AI-modellen kleiner en sneller door de precisie van gewichten te verlagen van 32-bit naar 4-bit of 8-bit. Maakt het mogelijk grote modellen te draaien op gewone hardware via tools als Ollama.

SNELLE WEETJES

DoelKleiner, sneller model

Meest gebruiktQ4, Q8 (4-bit, 8-bit)

KwaliteitsverliesMinimaal bij Q4+

Gebruikt doorOllama, lokale modellen

Wat is quantization?

Quantization (kwantisatie) is een techniek om AI-modellen kleiner en sneller te maken door de precisie van de getallen in het model te verlagen. Een standaard model slaat gewichten op als 32-bit of 16-bit floating point getallen. Quantization reduceert dit naar 8-bit, 4-bit of zelfs 2-bit — waardoor het model minder geheugen gebruikt en sneller inferentie uitvoert, met een kleine maar acceptabele kwaliteitsafname.

Waarom is dit belangrijk?

Een groot taalmodel kan meerdere gigabytes of zelfs honderden gigabytes groot zijn. Zonder quantization past een krachtig model niet op de GPU van een gewone computer. Quantization maakt het mogelijk om modellen zoals Llama of Mistral te draaien op consumenten-hardware. Ollama gebruikt standaard gequantiseerde versies van modellen — dat is waarom je Llama op een MacBook kan draaien.

Kwaliteit vs. grootte

4-bit quantization (Q4) halveert ruwweg de modelgrootte ten opzichte van 8-bit (Q8) met een beperkt kwaliteitsverlies. Voor de meeste dagelijkse taken is een Q4-model nauwelijks te onderscheiden van een volledig-precisie model. Voor kritieke taken waar elke nuance telt, kies je een groter model of hogere precisie.

Waarom relevant?

Als je met Ollama of lokale modellen werkt, zie je aanduidingen zoals “Q4_K_M” of “Q8_0” bij modelbestandsnamen — dat zijn de quantisatiegraden. Begrijpen wat dit betekent helpt je de juiste afweging te maken tussen modelkwaliteit, geheugengebruik en snelheid.

Gerelateerde begrippen

InferentieInferentie is het moment waarop een AI-model een vraag beantwoordt of een taak uitvoert — de tegenhanger van…OllamaOllama maakt het draaien van open-source AI-modellen op je eigen computer eenvoudig.Self-hosted AISelf-hosted AI is een AI-model dat je op je eigen server draait — volledige dataprivacy, geen API-kosten bij…LlamaMeta's open-source AI-modellenreeks die je op je eigen server kunt draaien.

Aliassen

kwantisatiequantizationmodel compressionQ4 quantizationGGUF quantization

Laatst bijgewerkt: 19 april 2026