scaling hypothesis

Hypotesen om at modellers præstationer forbedres forudsigeligt efter en potenslov, når modelstørrelse, datamængde og beregningsressourcer øges samtidigt.

Kort fortalt

Kort fortalt siger scaling-hypotesen, at jo større en sprogmodel er, og jo flere data den trænes på, jo bedre bliver den – og det sker efter et relativt forudsigeligt mønster.

Kategori
begreb
Niveau
øvet
Udtale
ˈskeɪlɪŋ haɪˈpɒθɪsɪs

Betydninger

1
  1. 1

    Den hypotese at en models præstation forbedres efter en potenslov, når modelstørrelse, datamængde og beregningsressourcer øges samtidigt.

    • Scaling-hypotesen blev formuleret i en række artikler fra OpenAI i 2020.forskningsartikel, 2020
    • Ifølge scaling-hypotesen bør man øge både modelstørrelse og datamængde proportionelt.

Hvornår bruges det

Scaling-hypotesen bruges til at retfærdiggøre investeringer i stadigt større modeller og datasæt. Den har været central for udviklingen af GPT-serien og andre store sprogmodeller, hvor man systematisk har øget parametre og træningsdata for at opnå bedre resultater.

Formel

L ≈ (N_c / N)^α + (D_c / D)^β, hvor L er krydsentropitab, N er antal parametre, D er antal tokens, og α, β er skaleringseksponenter.

Oprindelse

Udtrykket 'scaling hypothesis' stammer fra engelsk og blev almindeligt i maskinlæringsforskning omkring 2020, især efter OpenAI's arbejde med skalering af sprogmodeller.

Afledte ord

2

Kilder

2