ordforråd
Sæt af unikke tokens (ord eller underord) som en sprogmodel kender og kan generere.
Kort fortalt
Modellens ordbog over alle de ord og dele, den kan forstå og skrive.
- Kategori
- begreb
- Niveau
- begynder
Betydninger
2- 1
Den komplette liste af tokens (ord, underord, tegn) som en sprogmodel kan genkende og generere.
- GPT-2's ordforråd indeholder 50.257 tokens, inklusive ord og tegn. — OpenAI, 2019
- Et begrænset ordforråd kan føre til mange [UNK]-tokens i output.
- 2
Den mapping mellem tokens og heltal som en tokenizer bruger.
- Tokenizerens ordforråd gemmes som en ordbog, fx {'hej': 42, 'verden': 43}.
Hvornår bruges det
Ordfordået defineres under tokenisering og bruges til at konvertere tekst til tal. Størrelsen påvirker modelstørrelse og ydeevne; et for stort ordforråd kan være ineffektivt, mens et for lille kan føre til mange ukendte tokens.
Oprindelse
Sammensat af 'ord' og 'forråd', lånt fra lingvistikken. I AI-sammenhæng brugt siden 1950'erne om sæt af ord i statistiske modeller.