Kaplan skaleringslove

Empiriske power-law relationer mellem neural netværks test-loss og antallet af parametre, datamængde og træningscompute.

Kort fortalt

Jo større model og mere data, desto bedre – men med aftagende effekt.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    De empiriske power-law relationer, der beskriver, hvordan test-loss for et neuralt sprogmodel falder med stigende modelstørrelse, datamængde og træningscompute, som dokumenteret af Kaplan et al. (2020).

    • Ifølge Kaplan-skaleringslovene kræves der cirka 10 gange mere data for at halvere test-loss.
    • Kaplan-skaleringslove forudsiger, at store modeller er mere compute-effektive for et givet performance-niveau.

Hvornår bruges det

Bruges til at forudsige ydeevne ved skalering og til at planlægge ressourceallokering i store træningsløb.

Formel

L(N) ∝ N^(-α_N), L(D) ∝ D^(-α_D), L(C) ∝ C^(-α_C) med typiske eksponenter α_N≈0.074, α_D≈0.095, α_C≈0.055.

Oprindelse

Opkaldt efter Jared Kaplan, hovedforfatter af artiklen 'Scaling Laws for Neural Language Models' (2020).

Kilder

1