ordforrådsstørrelse
Antallet af unikke tokens i en models ordforråd, typisk målt i antal tokens (ord eller underordselementer).
Kort fortalt
Størrelsen på den ordbog, som en sprogmodel bruger til at repræsentere tekst – jo større ordforråd, desto flere ord kan den genkende.
- Kategori
- begreb
- Niveau
- begynder
Betydninger
1- 1
Antallet af unikke tokens (ord eller underordsenheder) som en sprogmodel kan genkende og producere.
- GPT-2's ordforrådsstørrelse er 50.257 tokens. — OpenAI GPT-2 documentation
- En models ordforrådsstørrelse påvirker træningstid og hukommelsesforbrug.
Hvornår bruges det
Bruges til at angive modelkapacitet og sprogdækning; større ordforråd giver bedre dækning men kræver flere parametre. Typisk vælges ordforrådsstørrelse som et hyperparameter ved modeldesign.
Oprindelse
Sammensat af 'ordforråd' og 'størrelse', direkte oversat fra engelsk 'vocabulary size'.
Kilder
2- Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space.
- Devlin et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.