Scaling laws

Empiriske love, der beskriver, hvordan en models ydeevne (fx tab) skalerer med modelstørrelse, datamængde og beregningsressourcer.

Kort fortalt

Scaling laws siger, at jo større en sprogmodel og jo mere data den trænes på, desto bedre bliver den – og det følger et forudsigeligt mønster.

Kategori: begreb
Niveau: øvet
Udtale: /ˈskeɪlɪŋ lɔːz/

Betydninger

1
Empiriske love inden for deep learning, der viser et power-law-forhold mellem modelstørrelse, datamængde eller compute og modellens tab eller ydeevne.
- Ifølge scaling laws forudsiges en nøjagtig reduktion i tab, når antallet af parametre fordobles. — Kaplan et al., 2020
- Chinchilla-scaling laws viste, at de fleste eksisterende modeller var trænet med for få data i forhold til deres størrelse. — Hoffmann et al., 2022

Hvornår bruges det

Scaling laws bruges til at forudsige, hvor meget ydeevne man får ud af at øge modelstørrelse, data eller compute, og til at finde den optimale ressourceallokering. De er centrale i udviklingen af store sprogmodeller som GPT-4 og Llama.

Formel

L(N,D) = L_∞ + (N_c/N)^{α_N} + (D_c/D)^{α_D}, hvor L er tab, N er parametre, D er datamængde, og α_N, α_D, N_c, D_c er empiriske konstanter.

Oprindelse

Fra engelsk 'scaling' (skalering) og 'laws' (love); termen blev populær med Kaplan et al. (2020).

Afledte ord

Chinchilla scaling laws Compute-optimal scaling

Kilder

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →