subword-tokenizer

En tokeniseringsmetode der opdeler ord i mindre enheder (subwords) baseret på frekvens, så modellen kan håndtere ukendte ord.

Kort fortalt

Kort fortalt: En teknik der deler ord op i mindre stykker så maskinlæringsmodeller kan forstå ord de ikke har set før.

Kategori: teknik
Niveau: øvet

Betydninger

1
En tokeniseringsalgoritme der deler tekst i subword-enheder baseret på frekvens og dermed reducerer antallet af ukendte tokens.
- Subword-tokenizeren opdelte ordet 'ubærbar' i ['ub', 'ærbar'].
- I BERT bruges WordPiece, en variant af subword-tokenizer.

Hvornår bruges det

Bruges i NLP-forbehandling til at lave et ordforråd af subwords, ofte med algoritmer som BPE, WordPiece eller Unigram. Det er standard i moderne sprogmodeller som BERT og GPT.

Kodeeksempel

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
tokens = tokenizer.tokenize('unbearable')
print(tokens)  # ['un', '##bear', '##able']

Eksempel på brug af subword-tokenizer (WordPiece) fra BERT.

Oprindelse

Udtrykket kommer af 'subword' (underord) og 'tokenizer' (tokenisering), dvs. opdeling i mindre enheder end ord.

Afledte ord

subword-tokenisering subword-vokabular

Kilder

Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing (Kudo & Richardson, 2018)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →