BPE-vokabularium

forkortelse for Byte Pair Encoding-vokabularium

Et vokabularium af subword-tokens, genereret ved Byte Pair Encoding-algoritmen.

Kort fortalt

BPE-vokabularium er en liste over de mindste tekstenheder (tokens), som en sprogmodel bruger, skabt ved at dele ord op i hyppige stykker.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Det sæt af subword-tokens, der er lært ved BPE-tokenisering, typisk repræsenteret som en mapping fra heltal (token-ID'er) til strengstykker.

    • BPE-vokabulariet for GPT-2 indeholder 50.257 tokens.OpenAI, 2019
    • Ved træning af et BPE-vokabularium starter man med et basisvokabularium af enkelte tegn.Sennrich et al., 2016

Hvornår bruges det

BPE-vokabularier bruges i sprogmodeller til at håndtere ord uden for vokabulariet og for at opnå en kompakt repræsentation af tekst. De trænes på et korpus ved at flette hyppige tegnpar, indtil et ønsket vokabularium er nået.

Kodeeksempel

from tokenizers import Tokenizer, models, trainers

tokenizer = Tokenizer(models.BPE())
trainer = trainers.BpeTrainer(vocab_size=1000, min_frequency=2)
tokenizer.train(["sample text for training"], trainer)
vocab = tokenizer.get_vocab()
print(list(vocab.items())[:10])

Træning af et BPE-vokabularium med tokenizers-biblioteket

Oprindelse

BPE står for Byte Pair Encoding, en algoritme introduceret af Sennrich et al. (2016) til maskinoversættelse. 'Vokabularium' kommer fra latin vocabulum. Begrebet 'BPE-vokabularium' refererer specifikt til det resulterende token-sæt.

Afledte ord

1

Kilder

2
  • Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
  • Language Models are Unsupervised Multitask Learners (Radford et al., 2019)