power law scaling
Empirisk observation af, at modelpræstation (fx tab) forbedres som en potensfunktion af stigende mængde data, modelstørrelse eller beregningsressourcer.
Kort fortalt
Jo større model og mere data, jo bedre bliver den – og forbedringen følger en forudsigelig potenslov.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /ˈpaʊər lɔː ˈskeɪlɪŋ/
Betydninger
1- 1
Empirisk lov, der siger, at tabet i en sprogmodel falder som en potensfunktion af antallet af parametre, mængden af træningsdata eller den anvendte beregningskraft, indtil det når et fundamentalt plateau.
- Kaplan et al. viste, at tabet for transformer-sprogmodeller følger en power law scaling med modelstørrelsen. — Kaplan et al., 2020
- Chinchilla-scaling-loven præciserer, at power law scaling også gælder for data, og at modeller bør trænes på flere datapunkter for optimal ydeevne. — Hoffmann et al., 2022
Hvornår bruges det
Power law scaling bruges til at forudsige, hvor meget en model skal skaleres for at opnå en given præstationsforbedring, og til at identificere optimal ressourceallokering (data vs. parametre).
Formel
L(N) = A · N^(-α) + L∞, hvor L er tab, N er modelparametre, A og α er konstanter, og L∞ er det uundgåelige tab.Oprindelse
Begrebet er overført fra fysik og økonomi, hvor potenslove beskriver systemer, hvor en størrelse varierer som en potens af en anden. Inden for AI blev det fremtrædende gennem Kaplan et al. (2020).