power law scaling

Empirisk observation af, at modelpræstation (fx tab) forbedres som en potensfunktion af stigende mængde data, modelstørrelse eller beregningsressourcer.

Kort fortalt

Jo større model og mere data, jo bedre bliver den – og forbedringen følger en forudsigelig potenslov.

Kategori: begreb
Niveau: øvet
Udtale: /ˈpaʊər lɔː ˈskeɪlɪŋ/

Betydninger

1
Empirisk lov, der siger, at tabet i en sprogmodel falder som en potensfunktion af antallet af parametre, mængden af træningsdata eller den anvendte beregningskraft, indtil det når et fundamentalt plateau.
- Kaplan et al. viste, at tabet for transformer-sprogmodeller følger en power law scaling med modelstørrelsen. — Kaplan et al., 2020
- Chinchilla-scaling-loven præciserer, at power law scaling også gælder for data, og at modeller bør trænes på flere datapunkter for optimal ydeevne. — Hoffmann et al., 2022

Hvornår bruges det

Power law scaling bruges til at forudsige, hvor meget en model skal skaleres for at opnå en given præstationsforbedring, og til at identificere optimal ressourceallokering (data vs. parametre).

Formel

L(N) = A · N^(-α) + L∞, hvor L er tab, N er modelparametre, A og α er konstanter, og L∞ er det uundgåelige tab.

Oprindelse

Begrebet er overført fra fysik og økonomi, hvor potenslove beskriver systemer, hvor en størrelse varierer som en potens af en anden. Inden for AI blev det fremtrædende gennem Kaplan et al. (2020).

Afledte ord

power-law scaling relationship

Kilder

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →