Chinchilla scaling law

En empirisk lov fra DeepMinds Chinchilla-studie, der siger at modelstørrelse og mængden af træningsdata skal skaleres i samme takt for at opnå optimal ydeevne inden for et givet compute-budget.

Kort fortalt

Chinchilla scaling law viser at man får den bedste sprogmodel ved at øge både modelstørrelse og træningsdata i samme forhold, i stedet for kun at gøre modellen større.

Kategori: begreb
Niveau: ekspert
Udtale: tʃɪnˈtʃɪljə ˈskeɪlɪŋ lɔː

Betydninger

1
En skaleringslov inden for naturlig sprogbehandling, der siger at compute-optimal træning kræver at modelstørrelse (parametre) og antal træningstokens skaleres proportionelt med hinanden.
- Chinchilla scaling law antyder at mange store modeller er trænet med for få data. — Hoffmann et al., 2022
- Ved at følge Chinchilla scaling law kan man opnå samme ydeevne med en mindre model. — Hoffmann et al., 2022

Hvornår bruges det

Loven bruges til at planlægge træning af store sprogmodeller, så man undgår at overinvestere i modelstørrelse uden tilsvarende data. Den har ført til en trend mod at træne mindre modeller på flere data, fx Chinchilla selv (70B parametre på 1,4 billioner tokens).

Formel

L(N,D) = E + A/N^α + B/D^β, where L is loss, N is model parameters, D is training tokens, and optimal compute allocation satisfies N ∝ D.

Oprindelse

Opkaldt efter DeepMinds Chinchilla-model (2022), som blev trænet i overensstemmelse med den nye lov. 'Chinchilla' refererer til gnaveren, som modellen blev opkaldt efter.

Afledte ord

Chinchilla-optimal træning

Kilder

Training Compute-Optimal Large Language Models (Chinchilla)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →