subword-tokenizer
En tokeniseringsmetode der opdeler ord i mindre enheder (subwords) baseret på frekvens, så modellen kan håndtere ukendte ord.
Kort fortalt
Kort fortalt: En teknik der deler ord op i mindre stykker så maskinlæringsmodeller kan forstå ord de ikke har set før.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En tokeniseringsalgoritme der deler tekst i subword-enheder baseret på frekvens og dermed reducerer antallet af ukendte tokens.
- Subword-tokenizeren opdelte ordet 'ubærbar' i ['ub', 'ærbar'].
- I BERT bruges WordPiece, en variant af subword-tokenizer.
Hvornår bruges det
Bruges i NLP-forbehandling til at lave et ordforråd af subwords, ofte med algoritmer som BPE, WordPiece eller Unigram. Det er standard i moderne sprogmodeller som BERT og GPT.
Kodeeksempel
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
tokens = tokenizer.tokenize('unbearable')
print(tokens) # ['un', '##bear', '##able']Eksempel på brug af subword-tokenizer (WordPiece) fra BERT.
Oprindelse
Udtrykket kommer af 'subword' (underord) og 'tokenizer' (tokenisering), dvs. opdeling i mindre enheder end ord.
Afledte ord
2Kilder
2- Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
- SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing (Kudo & Richardson, 2018)