ordforråd

Det sæt af tokens (ord, underord eller tegn) som en sprogmodel eller NLP-system genkender og kan behandle.

Kort fortalt

Ordbogen over alle de ord og dele af ord, som en AI-model kender og kan bruge.

Kategori
begreb
Niveau
begynder
Udtale
[ˈoɐ̯dfɒˌʁɒˀð]

Betydninger

1
  1. 1

    Mængden af alle tokens som en given model eller tokenizer kender.

    • BERTs ordforråd består af ca. 30.000 WordPiece-tokens.
    • Jo større ordforråd, desto flere parametre i embedding-laget.

Hvornår bruges det

Ordfordrådet defineres under tokenisering og bruges til at konvertere tekst til numeriske ID'er. Det er afgørende for modelarkitekturen, da størrelsen bestemmer antallet af parametre i embedding-laget.

Kodeeksempel

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
vocab = tokenizer.get_vocab()
print(len(vocab))  # Output: 30522

Henter ordforrådet fra en fortrænet BERT-tokenizer.

Oprindelse

Sammensat af 'ord' og 'forråd' (lager). Begrebet stammer fra lingvistik og er overtaget i NLP.

Afledte ord

2