Compute-optimal scaling
Metode til at bestemme den optimale fordeling af en given beregningsressource mellem modelstørrelse og træningsdata for at opnå den laveste tabsfunktion.
Kort fortalt
Compute-optimal scaling handler om at finde den bedste balance mellem hvor stor en AI-model er, og hvor meget data den trænes på, for at få mest mulig intelligens ud af den tilgængelige computerkraft.
- Kategori
- begreb
- Niveau
- ekspert
Betydninger
1- 1
Den teoretiske og praktiske ramme for at bestemme, hvordan en given mængde beregningsressourcer bedst fordeles mellem modelstørrelse og datasætstørrelse for at minimere tab under træning af neurale netværk.
- Chinchilla-modellen blev trænet med compute-optimal scaling, hvilket resulterede i en mindre model, der præsterede bedre end den meget større GPT-3. — DeepMind, 2022
Hvornår bruges det
Bruges i praksis til at planlægge træning af store sprogmodeller, hvor man ønsker at maksimere ydeevnen inden for en given beregningsressource. Det har ført til Chinchilla-modellen, som viste, at mange modeller var overtrainerede i forhold til deres data.
Formel
L(N,D) = E + A/N^α + B/D^β, with optimal allocation N_opt ∝ C^a, D_opt ∝ C^b where a+b=1, empirically a≈0.5, b≈0.5 from Chinchilla.Oprindelse
Udtrykket opstod i forbindelse med scaling laws-forskning, især med DeepMinds Chinchilla-papir fra 2022, der viste, at tidligere modeller som GPT-3 ikke var compute-optimale.
Afledte ord
2Kilder
2- Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)
- Scaling Laws for Neural Language Models (Kaplan et al., 2020)