Scaling laws
Empiriske love, der beskriver, hvordan en models ydeevne (fx tab) skalerer med modelstørrelse, datamængde og beregningsressourcer.
Kort fortalt
Scaling laws siger, at jo større en sprogmodel og jo mere data den trænes på, desto bedre bliver den – og det følger et forudsigeligt mønster.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /ˈskeɪlɪŋ lɔːz/
Betydninger
1- 1
Empiriske love inden for deep learning, der viser et power-law-forhold mellem modelstørrelse, datamængde eller compute og modellens tab eller ydeevne.
- Ifølge scaling laws forudsiges en nøjagtig reduktion i tab, når antallet af parametre fordobles. — Kaplan et al., 2020
- Chinchilla-scaling laws viste, at de fleste eksisterende modeller var trænet med for få data i forhold til deres størrelse. — Hoffmann et al., 2022
Hvornår bruges det
Scaling laws bruges til at forudsige, hvor meget ydeevne man får ud af at øge modelstørrelse, data eller compute, og til at finde den optimale ressourceallokering. De er centrale i udviklingen af store sprogmodeller som GPT-4 og Llama.
Formel
L(N,D) = L_∞ + (N_c/N)^{α_N} + (D_c/D)^{α_D}, hvor L er tab, N er parametre, D er datamængde, og α_N, α_D, N_c, D_c er empiriske konstanter.Oprindelse
Fra engelsk 'scaling' (skalering) og 'laws' (love); termen blev populær med Kaplan et al. (2020).