Chinchilla scaling law
En empirisk lov fra DeepMinds Chinchilla-studie, der siger at modelstørrelse og mængden af træningsdata skal skaleres i samme takt for at opnå optimal ydeevne inden for et givet compute-budget.
Kort fortalt
Chinchilla scaling law viser at man får den bedste sprogmodel ved at øge både modelstørrelse og træningsdata i samme forhold, i stedet for kun at gøre modellen større.
- Kategori
- begreb
- Niveau
- ekspert
- Udtale
- tʃɪnˈtʃɪljə ˈskeɪlɪŋ lɔː
Betydninger
1- 1
En skaleringslov inden for naturlig sprogbehandling, der siger at compute-optimal træning kræver at modelstørrelse (parametre) og antal træningstokens skaleres proportionelt med hinanden.
- Chinchilla scaling law antyder at mange store modeller er trænet med for få data. — Hoffmann et al., 2022
- Ved at følge Chinchilla scaling law kan man opnå samme ydeevne med en mindre model. — Hoffmann et al., 2022
Hvornår bruges det
Loven bruges til at planlægge træning af store sprogmodeller, så man undgår at overinvestere i modelstørrelse uden tilsvarende data. Den har ført til en trend mod at træne mindre modeller på flere data, fx Chinchilla selv (70B parametre på 1,4 billioner tokens).
Formel
L(N,D) = E + A/N^α + B/D^β, where L is loss, N is model parameters, D is training tokens, and optimal compute allocation satisfies N ∝ D.Oprindelse
Opkaldt efter DeepMinds Chinchilla-model (2022), som blev trænet i overensstemmelse med den nye lov. 'Chinchilla' refererer til gnaveren, som modellen blev opkaldt efter.