neural scaling law

En empirisk lov, der beskriver, hvordan en neural netværks testfejl falder som en potensfunktion af modelstørrelse, datasætstørrelse eller beregningsressourcer.

Kort fortalt

Neural scaling laws siger, at jo større modellen og datasættet er, desto bedre bliver den, og det følger et regelmæssigt mønster.

Kategori: begreb
Niveau: øvet
Udtale: /ˈnjʊərəl ˈskeɪlɪŋ lɔː/

Betydninger

1
Den generelle neural scaling law, også kendt som Kaplan scaling law, siger at test cross-entropy loss falder som en potenslov med modelstørrelse, datasætstørrelse og compute, forudsat at de to andre faktorer ikke er flaskehalse.
- Kaplan scaling law viste, at større modeller er mere compute-efficient, hvilket førte til tendensen med at træne enorme sprogmodeller. — Kaplan et al., 2020
2
Compute-optimal scaling law, også kaldet Chinchilla scaling law, specificerer at for et givet compute-budget er den optimale modelstørrelse og datamængde cirka lige store, modsat Kaplans antagelse om at større modeller altid er bedre.
- Chinchilla scaling law førte til udviklingen af Chinchilla-modellen, som med samme compute-budget som GPT-3 opnåede bedre performance ved at træne på flere data. — Hoffmann et al., 2022

Hvornår bruges det

Bruges til at forudsige, hvor meget en model vil forbedres ved at skalere parametre, data eller compute, og til at finde den optimale ressourceallokering under træning.

Formel

L(N) = (N_c / N)^(α_N), L(D) = (D_c / D)^(α_D), L(C) = (C_c / C)^(α_C)

Oprindelse

Udtrykket stammer fra empiriske observationer i maskinlæring, formaliseret af Kaplan et al. (2020) og videreudviklet af Hoffmann et al. (2022).

Afledte ord

Kaplan scaling law Chinchilla scaling law compute-optimal scaling

Kilder

Scaling Laws for Neural Language Models (Kaplan et al., 2020)
Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →