Compute-optimal scaling

Metode til at bestemme den optimale fordeling af en given beregningsressource mellem modelstørrelse og træningsdata for at opnå den laveste tabsfunktion.

Kort fortalt

Compute-optimal scaling handler om at finde den bedste balance mellem hvor stor en AI-model er, og hvor meget data den trænes på, for at få mest mulig intelligens ud af den tilgængelige computerkraft.

Kategori
begreb
Niveau
ekspert

Betydninger

1
  1. 1

    Den teoretiske og praktiske ramme for at bestemme, hvordan en given mængde beregningsressourcer bedst fordeles mellem modelstørrelse og datasætstørrelse for at minimere tab under træning af neurale netværk.

    • Chinchilla-modellen blev trænet med compute-optimal scaling, hvilket resulterede i en mindre model, der præsterede bedre end den meget større GPT-3.DeepMind, 2022

Hvornår bruges det

Bruges i praksis til at planlægge træning af store sprogmodeller, hvor man ønsker at maksimere ydeevnen inden for en given beregningsressource. Det har ført til Chinchilla-modellen, som viste, at mange modeller var overtrainerede i forhold til deres data.

Formel

L(N,D) = E + A/N^α + B/D^β, with optimal allocation N_opt ∝ C^a, D_opt ∝ C^b where a+b=1, empirically a≈0.5, b≈0.5 from Chinchilla.

Oprindelse

Udtrykket opstod i forbindelse med scaling laws-forskning, især med DeepMinds Chinchilla-papir fra 2022, der viste, at tidligere modeller som GPT-3 ikke var compute-optimale.

Afledte ord

2

Kilder

2
  • Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)
  • Scaling Laws for Neural Language Models (Kaplan et al., 2020)