subword-tokenizer

En tokeniseringsmetode der opdeler ord i mindre enheder (subwords) baseret på frekvens, så modellen kan håndtere ukendte ord.

Kort fortalt

Kort fortalt: En teknik der deler ord op i mindre stykker så maskinlæringsmodeller kan forstå ord de ikke har set før.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En tokeniseringsalgoritme der deler tekst i subword-enheder baseret på frekvens og dermed reducerer antallet af ukendte tokens.

    • Subword-tokenizeren opdelte ordet 'ubærbar' i ['ub', 'ærbar'].
    • I BERT bruges WordPiece, en variant af subword-tokenizer.

Hvornår bruges det

Bruges i NLP-forbehandling til at lave et ordforråd af subwords, ofte med algoritmer som BPE, WordPiece eller Unigram. Det er standard i moderne sprogmodeller som BERT og GPT.

Kodeeksempel

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
tokens = tokenizer.tokenize('unbearable')
print(tokens)  # ['un', '##bear', '##able']

Eksempel på brug af subword-tokenizer (WordPiece) fra BERT.

Oprindelse

Udtrykket kommer af 'subword' (underord) og 'tokenizer' (tokenisering), dvs. opdeling i mindre enheder end ord.

Afledte ord

2

Kilder

2
  • Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
  • SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing (Kudo & Richardson, 2018)