Quantization
Wat is quantization?
Quantization (kwantisatie) is een techniek om AI-modellen kleiner en sneller te maken door de precisie van de getallen in het model te verlagen. Een standaard model slaat gewichten op als 32-bit of 16-bit floating point getallen. Quantization reduceert dit naar 8-bit, 4-bit of zelfs 2-bit — waardoor het model minder geheugen gebruikt en sneller inferentie uitvoert, met een kleine maar acceptabele kwaliteitsafname.
Waarom is dit belangrijk?
Een groot taalmodel kan meerdere gigabytes of zelfs honderden gigabytes groot zijn. Zonder quantization past een krachtig model niet op de GPU van een gewone computer. Quantization maakt het mogelijk om modellen zoals Llama of Mistral te draaien op consumenten-hardware. Ollama gebruikt standaard gequantiseerde versies van modellen — dat is waarom je Llama op een MacBook kan draaien.
Kwaliteit vs. grootte
4-bit quantization (Q4) halveert ruwweg de modelgrootte ten opzichte van 8-bit (Q8) met een beperkt kwaliteitsverlies. Voor de meeste dagelijkse taken is een Q4-model nauwelijks te onderscheiden van een volledig-precisie model. Voor kritieke taken waar elke nuance telt, kies je een groter model of hogere precisie.
Waarom relevant?
Als je met Ollama of lokale modellen werkt, zie je aanduidingen zoals “Q4_K_M” of “Q8_0” bij modelbestandsnamen — dat zijn de quantisatiegraden. Begrijpen wat dit betekent helpt je de juiste afweging te maken tussen modelkwaliteit, geheugengebruik en snelheid.