Scaling Law

Empirisk lov der beskriver, hvordan en models performance (f.eks. test-loss) skalerer med modelstørrelse, datamængde og beregningsressourcer.

Kort fortalt

Scaling laws siger, at jo større en sprogmodel er, jo mere data den trænes på, og jo mere regnekraft du bruger, desto bedre bliver den – og forholdet følger en forudsigelig potenslov.

Kategori
begreb
Niveau
øvet
Udtale
/ˈskeɪlɪŋ lɔː/

Betydninger

1
  1. 1

    Den generelle observation, at loss for en sprogmodel falder som en potenslov med stigende modelstørrelse, datamængde eller beregningsressourcer, når de andre faktorer ikke er begrænsende.

    • Ifølge scaling laws vil en fordobling af modelstørrelsen reducere test-loss med en konstant faktor.Kaplan et al., 2020
    • Chinchilla scaling law viste, at mange store modeller var trænet med for lidt data i forhold til deres størrelse.Hoffmann et al., 2022

Hvornår bruges det

Scaling laws bruges til at forudsige, hvor meget forbedring man kan forvente ved at skalere en model, og til at planlægge ressourceallokering i træning af store sprogmodeller. De er centrale i diskussioner om compute-optimal træning.

Formel

L(N) ≈ (N_c / N)^(α_N) for model-scaling, L(D) ≈ (D_c / D)^(α_D) for data-scaling, ofte kombineret som L(N, D) ≈ ((N_c / N)^(α_N) + (D_c / D)^(α_D))

Oprindelse

Udtrykket stammer fra Kaplan et al. (2020), der først systematisk dokumenterede skaleringslovene for neurale sprogmodeller.

Afledte ord

2

Kilder

2
  • Scaling Laws for Neural Language Models (Kaplan et al., 2020)
  • Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)