Kaplan skaleringslove
Empiriske power-law relationer mellem neural netværks test-loss og antallet af parametre, datamængde og træningscompute.
Kort fortalt
Jo større model og mere data, desto bedre – men med aftagende effekt.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
De empiriske power-law relationer, der beskriver, hvordan test-loss for et neuralt sprogmodel falder med stigende modelstørrelse, datamængde og træningscompute, som dokumenteret af Kaplan et al. (2020).
- Ifølge Kaplan-skaleringslovene kræves der cirka 10 gange mere data for at halvere test-loss.
- Kaplan-skaleringslove forudsiger, at store modeller er mere compute-effektive for et givet performance-niveau.
Hvornår bruges det
Bruges til at forudsige ydeevne ved skalering og til at planlægge ressourceallokering i store træningsløb.
Formel
L(N) ∝ N^(-α_N), L(D) ∝ D^(-α_D), L(C) ∝ C^(-α_C) med typiske eksponenter α_N≈0.074, α_D≈0.095, α_C≈0.055.Oprindelse
Opkaldt efter Jared Kaplan, hovedforfatter af artiklen 'Scaling Laws for Neural Language Models' (2020).