subword-token
En token der repræsenterer en underordnet enhed af et ord, typisk et hyppigt forekommende n-gram eller morfem, brugt i subword-tokenisering.
Kort fortalt
Subword-tokens er mindre dele af ord (som 'un' og 'able' i 'unable'), som sprogmodeller bruger til at håndtere ukendte ord og forbedre sprogforståelsen.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En token der består af en underordnet enhed af et ord, typisk et hyppigt forekommende tegnsekvens eller morfem, produceret af en subword-tokeniseringsalgoritme.
- Subword-tokenet '##ing' angiver endelsen -ing i BERT.
- Modellen deler 'ubiquitous' op i subword-tokens 'u', '##bi', '##qui', '##tous'.
Hvornår bruges det
Subword-tokens anvendes i sprogmodeller som GPT, BERT og T5 for at balancere mellem ord- og tegntokenisering. De gør det muligt at repræsentere sjældne ord som kombinationer af hyppige delord og reducere antallet af ukendte tokens.
Kodeeksempel
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
tokens = tokenizer.tokenize('subword tokenization')
print(tokens)Eksempel på BERTs subword-tokenisering af en sætning. Output: ['sub', '##word', 'token', '##ization']
Oprindelse
Fra 'sub-' (under) og 'word token', opstået med subword-tokeniseringsmetoder som BPE (2016) og WordPiece.
Afledte ord
2Kilder
2- Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)