BPE-vokabularium
forkortelse for Byte Pair Encoding-vokabularium
Et vokabularium af subword-tokens, genereret ved Byte Pair Encoding-algoritmen.
Kort fortalt
BPE-vokabularium er en liste over de mindste tekstenheder (tokens), som en sprogmodel bruger, skabt ved at dele ord op i hyppige stykker.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Det sæt af subword-tokens, der er lært ved BPE-tokenisering, typisk repræsenteret som en mapping fra heltal (token-ID'er) til strengstykker.
- BPE-vokabulariet for GPT-2 indeholder 50.257 tokens. — OpenAI, 2019
- Ved træning af et BPE-vokabularium starter man med et basisvokabularium af enkelte tegn. — Sennrich et al., 2016
Hvornår bruges det
BPE-vokabularier bruges i sprogmodeller til at håndtere ord uden for vokabulariet og for at opnå en kompakt repræsentation af tekst. De trænes på et korpus ved at flette hyppige tegnpar, indtil et ønsket vokabularium er nået.
Kodeeksempel
from tokenizers import Tokenizer, models, trainers
tokenizer = Tokenizer(models.BPE())
trainer = trainers.BpeTrainer(vocab_size=1000, min_frequency=2)
tokenizer.train(["sample text for training"], trainer)
vocab = tokenizer.get_vocab()
print(list(vocab.items())[:10])Træning af et BPE-vokabularium med tokenizers-biblioteket
Oprindelse
BPE står for Byte Pair Encoding, en algoritme introduceret af Sennrich et al. (2016) til maskinoversættelse. 'Vokabularium' kommer fra latin vocabulum. Begrebet 'BPE-vokabularium' refererer specifikt til det resulterende token-sæt.
Afledte ord
1Kilder
2- Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
- Language Models are Unsupervised Multitask Learners (Radford et al., 2019)