Kaplan skaleringslove

Empiriske power-law relationer mellem neural netværks test-loss og antallet af parametre, datamængde og træningscompute.

Kort fortalt

Jo større model og mere data, desto bedre – men med aftagende effekt.

Betydninger

1
De empiriske power-law relationer, der beskriver, hvordan test-loss for et neuralt sprogmodel falder med stigende modelstørrelse, datamængde og træningscompute, som dokumenteret af Kaplan et al. (2020).
- Ifølge Kaplan-skaleringslovene kræves der cirka 10 gange mere data for at halvere test-loss.
- Kaplan-skaleringslove forudsiger, at store modeller er mere compute-effektive for et givet performance-niveau.

Bruges til at forudsige ydeevne ved skalering og til at planlægge ressourceallokering i store træningsløb.

L(N) ∝ N^(-α_N), L(D) ∝ D^(-α_D), L(C) ∝ C^(-α_C) med typiske eksponenter α_N≈0.074, α_D≈0.095, α_C≈0.055.

Opkaldt efter Jared Kaplan, hovedforfatter af artiklen 'Scaling Laws for Neural Language Models' (2020).

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere