Kaplan scaling laws

Kaplan scaling laws beskriver, hvordan modellens tab falder som en potensfunktion af modelstørrelse, datamængde og beregningsressourcer.

Kort fortalt

Love, der forudsiger, at jo større model og mere data, desto bedre bliver sprogmodellen – men gevinsten aftager.

Kategori
begreb
Niveau
øvet
Udtale
/ˈkæplən ˈskeɪlɪŋ lɔːz/

Betydninger

1
  1. 1

    Empiriske relationer, der beskriver, hvordan test-tabet (krydsentropi) for en sprogmodel skalerer med modelstørrelse (antal parametre), datasætstørrelse og beregningsressourcer, ofte som potenslove.

    • Kaplan scaling laws viser, at modellens tab falder som en potensfunktion af antallet af parametre.Kaplan et al., 2020
    • Ifølge Kaplan scaling laws kan man forudsige, hvor meget ekstra compute der kræves for at opnå en given forbedring i tab.Kaplan et al., 2020

Hvornår bruges det

Bruges til at planlægge træning af store sprogmodeller, f.eks. til at vælge optimal modelstørrelse givet et budget for compute.

Formel

L(N,D) ≈ L_0 + (N_c/N)^{α_N} + (D_c/D)^{α_D}, hvor α_N ≈ 0.076, α_D ≈ 0.095 for transformer-sprogmodeller.

Oprindelse

Opkaldt efter Jared Kaplan og medforfattere, der præsenterede lovene i en artikel fra 2020.

Kilder

1
  • Scaling Laws for Neural Language Models (Kaplan et al., 2020)