subword-token

En token der repræsenterer en underordnet enhed af et ord, typisk et hyppigt forekommende n-gram eller morfem, brugt i subword-tokenisering.

Kort fortalt

Subword-tokens er mindre dele af ord (som 'un' og 'able' i 'unable'), som sprogmodeller bruger til at håndtere ukendte ord og forbedre sprogforståelsen.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En token der består af en underordnet enhed af et ord, typisk et hyppigt forekommende tegnsekvens eller morfem, produceret af en subword-tokeniseringsalgoritme.

    • Subword-tokenet '##ing' angiver endelsen -ing i BERT.
    • Modellen deler 'ubiquitous' op i subword-tokens 'u', '##bi', '##qui', '##tous'.

Hvornår bruges det

Subword-tokens anvendes i sprogmodeller som GPT, BERT og T5 for at balancere mellem ord- og tegntokenisering. De gør det muligt at repræsentere sjældne ord som kombinationer af hyppige delord og reducere antallet af ukendte tokens.

Kodeeksempel

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
tokens = tokenizer.tokenize('subword tokenization')
print(tokens)

Eksempel på BERTs subword-tokenisering af en sætning. Output: ['sub', '##word', 'token', '##ization']

Oprindelse

Fra 'sub-' (under) og 'word token', opstået med subword-tokeniseringsmetoder som BPE (2016) og WordPiece.

Afledte ord

2

Kilder

2
  • Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)