skaleringslov-koefficienter

Eksponentielle parametre i skaleringslove, der beskriver, hvordan modelfejl (loss) aftager med stigende modelstørrelse, datamængde eller træningsberegning.

Kort fortalt

Skaleringslov-koefficienter er matematiske tal, der forudsiger, hvor meget en AI-model forbedres, når man gør den større eller træner den på mere data.

Kategori: begreb
Niveau: ekspert

Betydninger

1
Eksponenterne α, β og γ i skaleringslove for neurale sprogmodeller, der kvantificerer, hvor hurtigt loss falder som funktion af henholdsvis modelstørrelse, datamængde og træningsberegning.
- Kaplan et al. fandt α ≈ 0.076 for modelstørrelse, mens Hoffmann et al. rapporterede α ≈ 0.34, β ≈ 0.28 og γ ≈ 0.05.
- Skaleringslov-koefficienterne afgør, om det er mest effektivt at øge modelstørrelsen eller datamængden.

Hvornår bruges det

De bruges til at planlægge træning af store sprogmodeller: man estimerer koefficienterne ud fra mindre eksperimenter og ekstrapolerer til større modeller. De indgår i compute-optimal træning for at finde den bedste fordeling af parametre og data.

Formel

L(N) ≈ (N₀/N)^α, L(D) ≈ (D₀/D)^β, L(C) ≈ (C₀/C)^γ, hvor α, β, γ er skaleringslov-koefficienterne.

Oprindelse

Udtrykket stammer fra forskning i skaleringslove for neurale sprogmodeller, især Kaplan et al. (2020) og Hoffmann et al. (2022), der empirisk bestemte værdier for α, β, γ.

Kilder

Scaling Laws for Neural Language Models (Kaplan et al., 2020)
Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →