neural scaling laws

Empiriske love, der beskriver, hvordan en neurale models ydelse (fx test-loss) skalerer som en potenslov med modelstørrelse, datamængde og beregningsressourcer.

Kort fortalt

Større modeller, mere data og mere træning giver forudsigeligt bedre ydelse – men kun hvis alle tre skaleres samtidigt.

Kategori
begreb
Niveau
ekspert
Udtale
/ˈn(j)ʊərəl ˈskeɪlɪŋ lɔːz/

Betydninger

1
  1. 1

    Den primære betydning: empiriske potenslovsrelationer mellem en models test-loss og dens parametertal, træningsdatamængde og beregningsbudget.

    • Kaplan et al. (2020) påviste, at neural scaling laws gælder på tværs af flere størrelsesordener for sprogmodeller.Kaplan et al., 'Scaling Laws for Neural Language Models', 2020
    • Chinchilla-scaling-loven (Hoffmann et al., 2022) viser, at for optimal træning bør data og parametre skaleres proportionalt.Hoffmann et al., 'Training Compute-Optimal Large Language Models', 2022

Hvornår bruges det

Neural scaling laws bruges til at forudsige, hvor meget en model vil forbedres ved at øge parametertal, træningsdata eller compute. De guider beslutninger om ressourceallokering og modelarkitektur, fx når man planlægger træning af store sprogmodeller som GPT-4.

Formel

L(N) ≈ L∞ + A·N^(-α_N)   og   L(D) ≈ L∞ + B·D^(-α_D), hvor L er test-loss, N er antal parametre, D er datamængde, og A, B, α er empiriske konstanter.

Oprindelse

Udtrykket låner fra fysikkens 'scaling laws' (skaleringslove) og anvendes på neurale netværk. Ordet 'neural' henviser til neurale netværk.

Afledte ord

2

Kilder

2