neural scaling laws
Empiriske love, der beskriver, hvordan en neurale models ydelse (fx test-loss) skalerer som en potenslov med modelstørrelse, datamængde og beregningsressourcer.
Kort fortalt
Større modeller, mere data og mere træning giver forudsigeligt bedre ydelse – men kun hvis alle tre skaleres samtidigt.
- Kategori
- begreb
- Niveau
- ekspert
- Udtale
- /ˈn(j)ʊərəl ˈskeɪlɪŋ lɔːz/
Betydninger
1- 1
Den primære betydning: empiriske potenslovsrelationer mellem en models test-loss og dens parametertal, træningsdatamængde og beregningsbudget.
- Kaplan et al. (2020) påviste, at neural scaling laws gælder på tværs af flere størrelsesordener for sprogmodeller. — Kaplan et al., 'Scaling Laws for Neural Language Models', 2020
- Chinchilla-scaling-loven (Hoffmann et al., 2022) viser, at for optimal træning bør data og parametre skaleres proportionalt. — Hoffmann et al., 'Training Compute-Optimal Large Language Models', 2022
Hvornår bruges det
Neural scaling laws bruges til at forudsige, hvor meget en model vil forbedres ved at øge parametertal, træningsdata eller compute. De guider beslutninger om ressourceallokering og modelarkitektur, fx når man planlægger træning af store sprogmodeller som GPT-4.
Formel
L(N) ≈ L∞ + A·N^(-α_N) og L(D) ≈ L∞ + B·D^(-α_D), hvor L er test-loss, N er antal parametre, D er datamængde, og A, B, α er empiriske konstanter.Oprindelse
Udtrykket låner fra fysikkens 'scaling laws' (skaleringslove) og anvendes på neurale netværk. Ordet 'neural' henviser til neurale netværk.