Kaplan scaling laws

Kaplan scaling laws beskriver, hvordan modellens tab falder som en potensfunktion af modelstørrelse, datamængde og beregningsressourcer.

Kort fortalt

Love, der forudsiger, at jo større model og mere data, desto bedre bliver sprogmodellen – men gevinsten aftager.

Betydninger

1
Empiriske relationer, der beskriver, hvordan test-tabet (krydsentropi) for en sprogmodel skalerer med modelstørrelse (antal parametre), datasætstørrelse og beregningsressourcer, ofte som potenslove.
- Kaplan scaling laws viser, at modellens tab falder som en potensfunktion af antallet af parametre. — Kaplan et al., 2020
- Ifølge Kaplan scaling laws kan man forudsige, hvor meget ekstra compute der kræves for at opnå en given forbedring i tab. — Kaplan et al., 2020

Bruges til at planlægge træning af store sprogmodeller, f.eks. til at vælge optimal modelstørrelse givet et budget for compute.

L(N,D) ≈ L_0 + (N_c/N)^{α_N} + (D_c/D)^{α_D}, hvor α_N ≈ 0.076, α_D ≈ 0.095 for transformer-sprogmodeller.

Opkaldt efter Jared Kaplan og medforfattere, der præsenterede lovene i en artikel fra 2020.

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere