neural scaling law
En empirisk lov, der beskriver, hvordan en neural netværks testfejl falder som en potensfunktion af modelstørrelse, datasætstørrelse eller beregningsressourcer.
Kort fortalt
Neural scaling laws siger, at jo større modellen og datasættet er, desto bedre bliver den, og det følger et regelmæssigt mønster.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /ˈnjʊərəl ˈskeɪlɪŋ lɔː/
Betydninger
2- 1
Den generelle neural scaling law, også kendt som Kaplan scaling law, siger at test cross-entropy loss falder som en potenslov med modelstørrelse, datasætstørrelse og compute, forudsat at de to andre faktorer ikke er flaskehalse.
- Kaplan scaling law viste, at større modeller er mere compute-efficient, hvilket førte til tendensen med at træne enorme sprogmodeller. — Kaplan et al., 2020
- 2
Compute-optimal scaling law, også kaldet Chinchilla scaling law, specificerer at for et givet compute-budget er den optimale modelstørrelse og datamængde cirka lige store, modsat Kaplans antagelse om at større modeller altid er bedre.
- Chinchilla scaling law førte til udviklingen af Chinchilla-modellen, som med samme compute-budget som GPT-3 opnåede bedre performance ved at træne på flere data. — Hoffmann et al., 2022
Hvornår bruges det
Bruges til at forudsige, hvor meget en model vil forbedres ved at skalere parametre, data eller compute, og til at finde den optimale ressourceallokering under træning.
Formel
L(N) = (N_c / N)^(α_N), L(D) = (D_c / D)^(α_D), L(C) = (C_c / C)^(α_C)Oprindelse
Udtrykket stammer fra empiriske observationer i maskinlæring, formaliseret af Kaplan et al. (2020) og videreudviklet af Hoffmann et al. (2022).
Afledte ord
3Kilder
2- Scaling Laws for Neural Language Models (Kaplan et al., 2020)
- Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)