NF4-kvantisering
forkortelse for NormalFloat 4-bit kvantisering
NF4-kvantisering er en 4-bit kvantiseringsmetode, der bruger et normaliseret float-format til at repræsentere vægte i neurale netværk, udviklet til QLoRA for at reducere hukommelsesforbrug uden væsentligt tab af præcision.
Kort fortalt
En teknik til at komprimere neurale netværksvægte til kun 4 bit per værdi, så modeller kan køre på mindre hardware.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En 4-bit kvantiseringsmetode baseret på normaliserede float-værdier, hvor de repræsenterede tal er tilpasset en standardnormalfordeling for at minimere kvantiseringsfejl.
- QLoRA anvender NF4-kvantisering til at reducere hukommelsesforbruget under finjustering af sprogmodeller. — QLoRA: Efficient Finetuning of Quantized Language Models (2023)
- Ved NF4-kvantisering gemmes hver vægt som en 4-bit værdi, der dækker et område omkring nul med højere præcision.
Hvornår bruges det
NF4-kvantisering bruges især i kombination med LoRA til finjustering af store sprogmodeller (QLoRA). Det muliggør træning af modeller med milliarder af parametre på en enkelt GPU ved at kvantisere de frosne basisvægte til 4-bit NF4-format.
Oprindelse
Udviklet af Tim Dettmers et al. i 2023 som en del af QLoRA-papiret. NF4 står for NormalFloat4, en datatype der fordeler 4-bit værdierne efter en normaldistribution.
Kilder
1- QLoRA: Efficient Finetuning of Quantized Language Models (2023)