ordforråd

Sæt af unikke tokens (ord eller underord) som en sprogmodel kender og kan generere.

Kort fortalt

Modellens ordbog over alle de ord og dele, den kan forstå og skrive.

Kategori
begreb
Niveau
begynder

Betydninger

2
  1. 1

    Den komplette liste af tokens (ord, underord, tegn) som en sprogmodel kan genkende og generere.

    • GPT-2's ordforråd indeholder 50.257 tokens, inklusive ord og tegn.OpenAI, 2019
    • Et begrænset ordforråd kan føre til mange [UNK]-tokens i output.
  2. 2

    Den mapping mellem tokens og heltal som en tokenizer bruger.

    • Tokenizerens ordforråd gemmes som en ordbog, fx {'hej': 42, 'verden': 43}.

Hvornår bruges det

Ordfordået defineres under tokenisering og bruges til at konvertere tekst til tal. Størrelsen påvirker modelstørrelse og ydeevne; et for stort ordforråd kan være ineffektivt, mens et for lille kan føre til mange ukendte tokens.

Oprindelse

Sammensat af 'ord' og 'forråd', lånt fra lingvistikken. I AI-sammenhæng brugt siden 1950'erne om sæt af ord i statistiske modeller.

Afledte ord

2

Kilder

1