LoRA-rank
LoRA-rank er en hyperparameter, der bestemmer dimensionen af de lav-rankede matricer, der bruges til at tilpasse en fortrænet model i LoRA-fintuning.
Kort fortalt
LoRA-rank styrer, hvor mange nye parametre der tilføjes under fintuning af en stor sprogmodel – jo højere rank, desto mere fleksibel tilpasning, men også flere parametre.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Hyperparameter i LoRA-fintuning, der angiver rangen af de lav-rankede opdateringsmatricer, hvilket bestemmer antallet af trænbare parametre.
- Ved fintuning af Llama 3 med LoRA blev en rank på 16 brugt for at opnå god ydeevne uden at overbelaste hukommelsen.
Hvornår bruges det
LoRA-rank vælges typisk som et lille tal (fx 4, 8, 16) for at holde antallet af trænbare parametre lavt. Det justeres efter modelstørrelse og opgavekompleksitet; for store sprogmodeller som GPT-3 bruges ofte rank 8 eller 16.
Formel
LoRA opdaterer vægtene som W' = W + BA, hvor A og B er matricer med dimensioner d×r og r×d, og r er LoRA-ranked.Oprindelse
Termen er sammensat af 'LoRA' (Low-Rank Adaptation) og 'rank' (rang) – en matematisk betegnelse for antallet af lineært uafhængige rækker i en matrix.
Kilder
1- LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021)