Chinchilla-optimal
En træningsstrategi for store sprogmodeller, hvor modelstørrelse og mængde af træningsdata skaleres ligeligt for at opnå optimal udnyttelse af en given beregningsressource.
Kort fortalt
Chinchilla-optimal betyder, at man skal træne en mindre model på meget mere data end tidligere antaget for at få mest muligt ud af sin computerkraft.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
En egenskab ved en træningskonfiguration, hvor modelstørrelse og datamængde er balanceret i henhold til de optimale skaleringslove, så beregningsressourcerne udnyttes mest effektivt.
- Chinchilla-optimal træning kræver at fordoble både modelstørrelse og data for at holde trit med en firedobling af compute. — Hoffmann et al., 2022
- Mange tidligere modeller som GPT-3 var ikke Chinchilla-optimale, fordi de brugte for lidt data i forhold til deres størrelse.
Hvornår bruges det
Chinchilla-optimal bruges til at bestemme det bedste forhold mellem modelstørrelse og datamængde, når man planlægger træning af en sprogmodel inden for et givet compute-budget. Det refererer specifikt til resultaterne fra Hoffmann et al. (2022), der viste, at mange store modeller var under-trænede.
Formel
For compute budget C, optimal model parameters N_opt and tokens D_opt satisfy N_opt ∝ C^0.5, D_opt ∝ C^0.5Oprindelse
Termen stammer fra navnet på modellen Chinchilla (70B parametre), som blev trænet med 1,4 billioner tokens i overensstemmelse med de optimale skaleringslove fundet af Hoffmann et al. (2022).