Chinchilla scaling law

En empirisk lov fra DeepMinds Chinchilla-studie, der siger at modelstørrelse og mængden af træningsdata skal skaleres i samme takt for at opnå optimal ydeevne inden for et givet compute-budget.

Kort fortalt

Chinchilla scaling law viser at man får den bedste sprogmodel ved at øge både modelstørrelse og træningsdata i samme forhold, i stedet for kun at gøre modellen større.

Kategori
begreb
Niveau
ekspert
Udtale
tʃɪnˈtʃɪljə ˈskeɪlɪŋ lɔː

Betydninger

1
  1. 1

    En skaleringslov inden for naturlig sprogbehandling, der siger at compute-optimal træning kræver at modelstørrelse (parametre) og antal træningstokens skaleres proportionelt med hinanden.

    • Chinchilla scaling law antyder at mange store modeller er trænet med for få data.Hoffmann et al., 2022
    • Ved at følge Chinchilla scaling law kan man opnå samme ydeevne med en mindre model.Hoffmann et al., 2022

Hvornår bruges det

Loven bruges til at planlægge træning af store sprogmodeller, så man undgår at overinvestere i modelstørrelse uden tilsvarende data. Den har ført til en trend mod at træne mindre modeller på flere data, fx Chinchilla selv (70B parametre på 1,4 billioner tokens).

Formel

L(N,D) = E + A/N^α + B/D^β, where L is loss, N is model parameters, D is training tokens, and optimal compute allocation satisfies N ∝ D.

Oprindelse

Opkaldt efter DeepMinds Chinchilla-model (2022), som blev trænet i overensstemmelse med den nye lov. 'Chinchilla' refererer til gnaveren, som modellen blev opkaldt efter.

Afledte ord

1

Kilder

1