NF4-kvantisering

forkortelse for NormalFloat 4-bit kvantisering

NF4-kvantisering er en 4-bit kvantiseringsmetode, der bruger et normaliseret float-format til at repræsentere vægte i neurale netværk, udviklet til QLoRA for at reducere hukommelsesforbrug uden væsentligt tab af præcision.

Kort fortalt

En teknik til at komprimere neurale netværksvægte til kun 4 bit per værdi, så modeller kan køre på mindre hardware.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En 4-bit kvantiseringsmetode baseret på normaliserede float-værdier, hvor de repræsenterede tal er tilpasset en standardnormalfordeling for at minimere kvantiseringsfejl.

    • QLoRA anvender NF4-kvantisering til at reducere hukommelsesforbruget under finjustering af sprogmodeller.QLoRA: Efficient Finetuning of Quantized Language Models (2023)
    • Ved NF4-kvantisering gemmes hver vægt som en 4-bit værdi, der dækker et område omkring nul med højere præcision.

Hvornår bruges det

NF4-kvantisering bruges især i kombination med LoRA til finjustering af store sprogmodeller (QLoRA). Det muliggør træning af modeller med milliarder af parametre på en enkelt GPU ved at kvantisere de frosne basisvægte til 4-bit NF4-format.

Oprindelse

Udviklet af Tim Dettmers et al. i 2023 som en del af QLoRA-papiret. NF4 står for NormalFloat4, en datatype der fordeler 4-bit værdierne efter en normaldistribution.

Kilder

1
  • QLoRA: Efficient Finetuning of Quantized Language Models (2023)