skaleringslov-koefficienter

Eksponentielle parametre i skaleringslove, der beskriver, hvordan modelfejl (loss) aftager med stigende modelstørrelse, datamængde eller træningsberegning.

Kort fortalt

Skaleringslov-koefficienter er matematiske tal, der forudsiger, hvor meget en AI-model forbedres, når man gør den større eller træner den på mere data.

Kategori
begreb
Niveau
ekspert

Betydninger

1
  1. 1

    Eksponenterne α, β og γ i skaleringslove for neurale sprogmodeller, der kvantificerer, hvor hurtigt loss falder som funktion af henholdsvis modelstørrelse, datamængde og træningsberegning.

    • Kaplan et al. fandt α ≈ 0.076 for modelstørrelse, mens Hoffmann et al. rapporterede α ≈ 0.34, β ≈ 0.28 og γ ≈ 0.05.
    • Skaleringslov-koefficienterne afgør, om det er mest effektivt at øge modelstørrelsen eller datamængden.

Hvornår bruges det

De bruges til at planlægge træning af store sprogmodeller: man estimerer koefficienterne ud fra mindre eksperimenter og ekstrapolerer til større modeller. De indgår i compute-optimal træning for at finde den bedste fordeling af parametre og data.

Formel

L(N) ≈ (N₀/N)^α, L(D) ≈ (D₀/D)^β, L(C) ≈ (C₀/C)^γ, hvor α, β, γ er skaleringslov-koefficienterne.

Oprindelse

Udtrykket stammer fra forskning i skaleringslove for neurale sprogmodeller, især Kaplan et al. (2020) og Hoffmann et al. (2022), der empirisk bestemte værdier for α, β, γ.

Kilder

2
  • Scaling Laws for Neural Language Models (Kaplan et al., 2020)
  • Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)