ordforrådsstørrelse

Antallet af unikke tokens i en models ordforråd, typisk målt i antal tokens (ord eller underordselementer).

Kort fortalt

Størrelsen på den ordbog, som en sprogmodel bruger til at repræsentere tekst – jo større ordforråd, desto flere ord kan den genkende.

Kategori
begreb
Niveau
begynder

Betydninger

1
  1. 1

    Antallet af unikke tokens (ord eller underordsenheder) som en sprogmodel kan genkende og producere.

    • GPT-2's ordforrådsstørrelse er 50.257 tokens.OpenAI GPT-2 documentation
    • En models ordforrådsstørrelse påvirker træningstid og hukommelsesforbrug.

Hvornår bruges det

Bruges til at angive modelkapacitet og sprogdækning; større ordforråd giver bedre dækning men kræver flere parametre. Typisk vælges ordforrådsstørrelse som et hyperparameter ved modeldesign.

Oprindelse

Sammensat af 'ordforråd' og 'størrelse', direkte oversat fra engelsk 'vocabulary size'.

Kilder

2
  • Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space.
  • Devlin et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.