Chinchilla skaleringslove

Chinchilla skaleringslove er en samling empiriske fund om det optimale forhold mellem modelstørrelse og træningsdatamængde for sprogmodeller under en fast beregningsbudget, som viste at model og data bør skaleres nogenlunde lige meget.

Kort fortalt

Chinchilla skaleringslove fortæller, at for at få den bedste ydelse for en given mængde regnekraft, bør både modelstørrelsen og mængden af træningsdata øges i samme takt, ikke kun modellen.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    De empiriske love for, hvordan man optimalt allokerer beregningsressourcer mellem modelstørrelse og træningsdata for sprogmodeller, baseret på resultaterne fra Chinchilla-papiret.

    • Ifølge Chinchilla skaleringslove bør en 70B parametermodel trænes på omkring 1,4 billioner tokens.Training Compute-Optimal Large Language Models, 2022
    • Chinchilla skaleringslove har vist, at mange tidligere store sprogmodeller var markant undertrænede.Training Compute-Optimal Large Language Models, 2022

Hvornår bruges det

Chinchilla skaleringslove anvendes til at bestemme den optimale model- og datasætstørrelse inden træning, så beregningsressourcerne udnyttes bedst muligt. De har ført til en ændring i praksis, hvor mange store sprogmodeller nu trænes med proportionelt flere data.

Formel

For a compute budget C, optimal model parameters N_opt and data tokens D_opt satisfy: N_opt ∝ C^a, D_opt ∝ C^b, with a = β/(α+β), b = α/(α+β), where α and β come from the loss function L(N,D) = E + A/N^α + B/D^β. Typically a ≈ 0.5, b ≈ 0.5.

Oprindelse

Termen stammer fra DeepMinds Chinchilla-model (2022), der undersøgte skaleringslove og fandt at hidtidige modeller var undertrænede.

Afledte ord

1

Kilder

1
  • Training Compute-Optimal Large Language Models