Chinchilla scaling laws
Chinchilla scaling laws beskriver det optimale forhold mellem modelstørrelse og mængden af træningsdata for at opnå den bedste performance inden for en given beregningsressource.
Kort fortalt
Kort fortalt viser Chinchilla scaling laws, at de fleste store sprogmodeller er trænet med for lidt data, og at man kan opnå bedre resultater ved at træne en mindre model på flere data.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Chinchilla scaling laws er en sæt af empiriske love, der angiver det optimale forhold mellem antal parametre og mængden af træningsdata for at opnå den bedste ydeevne inden for en given beregningsressource, som afledt af DeepMinds Chinchilla-papir fra 2022.
- Ifølge Chinchilla scaling laws skal en model med 70 milliarder parametre trænes på omkring 1,4 billioner tokens.
- DeepMinds Chinchilla-papir viste, at mange eksisterende modeller som GPT-3 var trænet med suboptimale data-mængder ifølge Chinchilla scaling laws. — DeepMind, 2022
Hvornår bruges det
Chinchilla scaling laws bruges af forskere og ingeniører til at bestemme den optimale størrelse af en model og mængden af træningsdata, når de allokerer computeressourcer til træning af sprogmodeller. De er især relevante ved design af nye store modeller, hvor man ønsker at maksimere performance per flops.
Oprindelse
Navnet kommer fra DeepMinds Chinchilla-model, som blev trænet i overensstemmelse med disse love og viste, at en mindre model trænet på flere data kan overgå en større model.