Chinchilla scaling laws

Chinchilla scaling laws beskriver det optimale forhold mellem modelstørrelse og mængden af træningsdata for at opnå den bedste performance inden for en given beregningsressource.

Kort fortalt

Kort fortalt viser Chinchilla scaling laws, at de fleste store sprogmodeller er trænet med for lidt data, og at man kan opnå bedre resultater ved at træne en mindre model på flere data.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Chinchilla scaling laws er en sæt af empiriske love, der angiver det optimale forhold mellem antal parametre og mængden af træningsdata for at opnå den bedste ydeevne inden for en given beregningsressource, som afledt af DeepMinds Chinchilla-papir fra 2022.

    • Ifølge Chinchilla scaling laws skal en model med 70 milliarder parametre trænes på omkring 1,4 billioner tokens.
    • DeepMinds Chinchilla-papir viste, at mange eksisterende modeller som GPT-3 var trænet med suboptimale data-mængder ifølge Chinchilla scaling laws.DeepMind, 2022

Hvornår bruges det

Chinchilla scaling laws bruges af forskere og ingeniører til at bestemme den optimale størrelse af en model og mængden af træningsdata, når de allokerer computeressourcer til træning af sprogmodeller. De er især relevante ved design af nye store modeller, hvor man ønsker at maksimere performance per flops.

Oprindelse

Navnet kommer fra DeepMinds Chinchilla-model, som blev trænet i overensstemmelse med disse love og viste, at en mindre model trænet på flere data kan overgå en større model.

Kilder

1