Chinchilla scaling

Chinchilla scaling er et princip inden for scaling laws, der siger at antallet af modelparametre og træningstokens bør skaleres proportionelt (cirka 20 tokens per parameter) for at opnå optimal ydelse for en given computerressource.

Kort fortalt

Når man træner en sprogmodel, skal man for hver parameter i modellen have omkring 20 træningstokens for at få mest muligt ud af computerressourcerne.

Kategori: begreb
Niveau: øvet

Betydninger

1
Princip inden for scaling laws for sprogmodeller: for en given computerressource er den optimale modelstørrelse og datamængde opnået når antallet af tokens i træningsdataen er omkring 20 gange antallet af modelparametre.
- Ved at følge Chinchilla scaling kan man opnå samme ydelse med en mindre model trænet på mere data. — DeepMind, 2022

Hvornår bruges det

Chinchilla scaling bruges til at designe store sprogmodeller, især til at bestemme den optimale modelstørrelse og datamængde givet en fast computerressource. Det har ført til en tendens mod mindre modeller trænet på mere data.

Oprindelse

Navnet stammer fra DeepMinds Chinchilla-model (2022), en sprogmodel opkaldt efter gnaveren chinchilla. Modellen viste at mindre modeller trænet på mere data kan matche større modellers ydelse, hvilket førte til princippet om Chinchilla scaling.

Afledte ord

compute-optimal training

Kilder

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →