skaleringslov-koefficienter
Eksponentielle parametre i skaleringslove, der beskriver, hvordan modelfejl (loss) aftager med stigende modelstørrelse, datamængde eller træningsberegning.
Kort fortalt
Skaleringslov-koefficienter er matematiske tal, der forudsiger, hvor meget en AI-model forbedres, når man gør den større eller træner den på mere data.
- Kategori
- begreb
- Niveau
- ekspert
Betydninger
1- 1
Eksponenterne α, β og γ i skaleringslove for neurale sprogmodeller, der kvantificerer, hvor hurtigt loss falder som funktion af henholdsvis modelstørrelse, datamængde og træningsberegning.
- Kaplan et al. fandt α ≈ 0.076 for modelstørrelse, mens Hoffmann et al. rapporterede α ≈ 0.34, β ≈ 0.28 og γ ≈ 0.05.
- Skaleringslov-koefficienterne afgør, om det er mest effektivt at øge modelstørrelsen eller datamængden.
Hvornår bruges det
De bruges til at planlægge træning af store sprogmodeller: man estimerer koefficienterne ud fra mindre eksperimenter og ekstrapolerer til større modeller. De indgår i compute-optimal træning for at finde den bedste fordeling af parametre og data.
Formel
L(N) ≈ (N₀/N)^α, L(D) ≈ (D₀/D)^β, L(C) ≈ (C₀/C)^γ, hvor α, β, γ er skaleringslov-koefficienterne.Oprindelse
Udtrykket stammer fra forskning i skaleringslove for neurale sprogmodeller, især Kaplan et al. (2020) og Hoffmann et al. (2022), der empirisk bestemte værdier for α, β, γ.
Kilder
2- Scaling Laws for Neural Language Models (Kaplan et al., 2020)
- Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)