Chinchilla-optimal

En træningsstrategi for store sprogmodeller, hvor modelstørrelse og mængde af træningsdata skaleres ligeligt for at opnå optimal udnyttelse af en given beregningsressource.

Kort fortalt

Chinchilla-optimal betyder, at man skal træne en mindre model på meget mere data end tidligere antaget for at få mest muligt ud af sin computerkraft.

Kategori: begreb
Niveau: øvet

Betydninger

1
En egenskab ved en træningskonfiguration, hvor modelstørrelse og datamængde er balanceret i henhold til de optimale skaleringslove, så beregningsressourcerne udnyttes mest effektivt.
- Chinchilla-optimal træning kræver at fordoble både modelstørrelse og data for at holde trit med en firedobling af compute. — Hoffmann et al., 2022
- Mange tidligere modeller som GPT-3 var ikke Chinchilla-optimale, fordi de brugte for lidt data i forhold til deres størrelse.

Hvornår bruges det

Chinchilla-optimal bruges til at bestemme det bedste forhold mellem modelstørrelse og datamængde, når man planlægger træning af en sprogmodel inden for et givet compute-budget. Det refererer specifikt til resultaterne fra Hoffmann et al. (2022), der viste, at mange store modeller var under-trænede.

Formel

For compute budget C, optimal model parameters N_opt and tokens D_opt satisfy N_opt ∝ C^0.5, D_opt ∝ C^0.5

Oprindelse

Termen stammer fra navnet på modellen Chinchilla (70B parametre), som blev trænet med 1,4 billioner tokens i overensstemmelse med de optimale skaleringslove fundet af Hoffmann et al. (2022).

Afledte ord

Chinchilla-optimal træning

Kilder

Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →