ordforråd
Det sæt af tokens (ord, underord eller tegn) som en sprogmodel eller NLP-system genkender og kan behandle.
Kort fortalt
Ordbogen over alle de ord og dele af ord, som en AI-model kender og kan bruge.
- Kategori
- begreb
- Niveau
- begynder
- Udtale
- [ˈoɐ̯dfɒˌʁɒˀð]
Betydninger
1- 1
Mængden af alle tokens som en given model eller tokenizer kender.
- BERTs ordforråd består af ca. 30.000 WordPiece-tokens.
- Jo større ordforråd, desto flere parametre i embedding-laget.
Hvornår bruges det
Ordfordrådet defineres under tokenisering og bruges til at konvertere tekst til numeriske ID'er. Det er afgørende for modelarkitekturen, da størrelsen bestemmer antallet af parametre i embedding-laget.
Kodeeksempel
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
vocab = tokenizer.get_vocab()
print(len(vocab)) # Output: 30522Henter ordforrådet fra en fortrænet BERT-tokenizer.
Oprindelse
Sammensat af 'ord' og 'forråd' (lager). Begrebet stammer fra lingvistik og er overtaget i NLP.