Chinchilla-optimal

En træningsstrategi for store sprogmodeller, hvor modelstørrelse og mængde af træningsdata skaleres ligeligt for at opnå optimal udnyttelse af en given beregningsressource.

Kort fortalt

Chinchilla-optimal betyder, at man skal træne en mindre model på meget mere data end tidligere antaget for at få mest muligt ud af sin computerkraft.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    En egenskab ved en træningskonfiguration, hvor modelstørrelse og datamængde er balanceret i henhold til de optimale skaleringslove, så beregningsressourcerne udnyttes mest effektivt.

    • Chinchilla-optimal træning kræver at fordoble både modelstørrelse og data for at holde trit med en firedobling af compute.Hoffmann et al., 2022
    • Mange tidligere modeller som GPT-3 var ikke Chinchilla-optimale, fordi de brugte for lidt data i forhold til deres størrelse.

Hvornår bruges det

Chinchilla-optimal bruges til at bestemme det bedste forhold mellem modelstørrelse og datamængde, når man planlægger træning af en sprogmodel inden for et givet compute-budget. Det refererer specifikt til resultaterne fra Hoffmann et al. (2022), der viste, at mange store modeller var under-trænede.

Formel

For compute budget C, optimal model parameters N_opt and tokens D_opt satisfy N_opt ∝ C^0.5, D_opt ∝ C^0.5

Oprindelse

Termen stammer fra navnet på modellen Chinchilla (70B parametre), som blev trænet med 1,4 billioner tokens i overensstemmelse med de optimale skaleringslove fundet af Hoffmann et al. (2022).

Afledte ord

1

Kilder

1