NF4-kvantisering

forkortelse for NormalFloat 4-bit kvantisering

NF4-kvantisering er en 4-bit kvantiseringsmetode, der bruger et normaliseret float-format til at repræsentere vægte i neurale netværk, udviklet til QLoRA for at reducere hukommelsesforbrug uden væsentligt tab af præcision.

Kort fortalt

En teknik til at komprimere neurale netværksvægte til kun 4 bit per værdi, så modeller kan køre på mindre hardware.

Kategori: teknik
Niveau: øvet

Betydninger

1
En 4-bit kvantiseringsmetode baseret på normaliserede float-værdier, hvor de repræsenterede tal er tilpasset en standardnormalfordeling for at minimere kvantiseringsfejl.
- QLoRA anvender NF4-kvantisering til at reducere hukommelsesforbruget under finjustering af sprogmodeller. — QLoRA: Efficient Finetuning of Quantized Language Models (2023)
- Ved NF4-kvantisering gemmes hver vægt som en 4-bit værdi, der dækker et område omkring nul med højere præcision.

Hvornår bruges det

NF4-kvantisering bruges især i kombination med LoRA til finjustering af store sprogmodeller (QLoRA). Det muliggør træning af modeller med milliarder af parametre på en enkelt GPU ved at kvantisere de frosne basisvægte til 4-bit NF4-format.

Oprindelse

Udviklet af Tim Dettmers et al. i 2023 som en del af QLoRA-papiret. NF4 står for NormalFloat4, en datatype der fordeler 4-bit værdierne efter en normaldistribution.

Kilder

QLoRA: Efficient Finetuning of Quantized Language Models (2023)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →