scaling hypothesis
Hypotesen om at modellers præstationer forbedres forudsigeligt efter en potenslov, når modelstørrelse, datamængde og beregningsressourcer øges samtidigt.
Kort fortalt
Kort fortalt siger scaling-hypotesen, at jo større en sprogmodel er, og jo flere data den trænes på, jo bedre bliver den – og det sker efter et relativt forudsigeligt mønster.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- ˈskeɪlɪŋ haɪˈpɒθɪsɪs
Betydninger
1- 1
Den hypotese at en models præstation forbedres efter en potenslov, når modelstørrelse, datamængde og beregningsressourcer øges samtidigt.
- Scaling-hypotesen blev formuleret i en række artikler fra OpenAI i 2020. — forskningsartikel, 2020
- Ifølge scaling-hypotesen bør man øge både modelstørrelse og datamængde proportionelt.
Hvornår bruges det
Scaling-hypotesen bruges til at retfærdiggøre investeringer i stadigt større modeller og datasæt. Den har været central for udviklingen af GPT-serien og andre store sprogmodeller, hvor man systematisk har øget parametre og træningsdata for at opnå bedre resultater.
Formel
L ≈ (N_c / N)^α + (D_c / D)^β, hvor L er krydsentropitab, N er antal parametre, D er antal tokens, og α, β er skaleringseksponenter.Oprindelse
Udtrykket 'scaling hypothesis' stammer fra engelsk og blev almindeligt i maskinlæringsforskning omkring 2020, især efter OpenAI's arbejde med skalering af sprogmodeller.