LoRA-rank

LoRA-rank er en hyperparameter, der bestemmer dimensionen af de lav-rankede matricer, der bruges til at tilpasse en fortrænet model i LoRA-fintuning.

Kort fortalt

LoRA-rank styrer, hvor mange nye parametre der tilføjes under fintuning af en stor sprogmodel – jo højere rank, desto mere fleksibel tilpasning, men også flere parametre.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Hyperparameter i LoRA-fintuning, der angiver rangen af de lav-rankede opdateringsmatricer, hvilket bestemmer antallet af trænbare parametre.

    • Ved fintuning af Llama 3 med LoRA blev en rank på 16 brugt for at opnå god ydeevne uden at overbelaste hukommelsen.

Hvornår bruges det

LoRA-rank vælges typisk som et lille tal (fx 4, 8, 16) for at holde antallet af trænbare parametre lavt. Det justeres efter modelstørrelse og opgavekompleksitet; for store sprogmodeller som GPT-3 bruges ofte rank 8 eller 16.

Formel

LoRA opdaterer vægtene som W' = W + BA, hvor A og B er matricer med dimensioner d×r og r×d, og r er LoRA-ranked.

Oprindelse

Termen er sammensat af 'LoRA' (Low-Rank Adaptation) og 'rank' (rang) – en matematisk betegnelse for antallet af lineært uafhængige rækker i en matrix.

Kilder

1
  • LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021)