scaling hypothesis

Hypotesen om at modellers præstationer forbedres forudsigeligt efter en potenslov, når modelstørrelse, datamængde og beregningsressourcer øges samtidigt.

Kort fortalt

Kort fortalt siger scaling-hypotesen, at jo større en sprogmodel er, og jo flere data den trænes på, jo bedre bliver den – og det sker efter et relativt forudsigeligt mønster.

Kategori: begreb
Niveau: øvet
Udtale: ˈskeɪlɪŋ haɪˈpɒθɪsɪs

Betydninger

1
Den hypotese at en models præstation forbedres efter en potenslov, når modelstørrelse, datamængde og beregningsressourcer øges samtidigt.
- Scaling-hypotesen blev formuleret i en række artikler fra OpenAI i 2020. — forskningsartikel, 2020
- Ifølge scaling-hypotesen bør man øge både modelstørrelse og datamængde proportionelt.

Hvornår bruges det

Scaling-hypotesen bruges til at retfærdiggøre investeringer i stadigt større modeller og datasæt. Den har været central for udviklingen af GPT-serien og andre store sprogmodeller, hvor man systematisk har øget parametre og træningsdata for at opnå bedre resultater.

Formel

L ≈ (N_c / N)^α + (D_c / D)^β, hvor L er krydsentropitab, N er antal parametre, D er antal tokens, og α, β er skaleringseksponenter.

Oprindelse

Udtrykket 'scaling hypothesis' stammer fra engelsk og blev almindeligt i maskinlæringsforskning omkring 2020, især efter OpenAI's arbejde med skalering af sprogmodeller.

Afledte ord

Scaling Law Compute-optimal scaling

Kilder

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →