BPE-token
forkortelse for Byte Pair Encoding-token
En BPE-token er en enhed af tekst genereret af Byte Pair Encoding, en subord-tokeniseringsalgoritme, der opdeler ord i hyppigt forekommende underenheder.
Kort fortalt
Kort fortalt: en BPE-token er en del af et ord (f.eks. 'token' eller '##ing') som en sprogmodel bruger til at forstå tekst.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En enhed af tekst, der er resultatet af Byte Pair Encoding-tokenisering, typisk en subord-del af et ord.
- Ordet 'tokenisering' tokeniseres til BPE-tokens ['token', 'isering']. — Eksempel, 2024
- BPE-tokens som '##ing' gør det muligt for modellen at genkende bøjningsformer. — Eksempel, 2024
Hvornår bruges det
BPE-tokens bruges i moderne sprogmodeller som GPT og BERT til at håndtere ord uden for ordforrådet og reducere ordforrådsstørrelsen. Tokeniseringen sker før modelindlæring og under inferens.
Kodeeksempel
from tokenizers import Tokenizer
from tokenizers.models import BPE
# Initialize a BPE tokenizer
tokenizer = Tokenizer(BPE())
# Train on a simple corpus
trainer = tokenizer.train(['tokenisering er en proces'], vocab_size=10)
# Encode a sentence
encoded = tokenizer.encode('tokenisering')
print(encoded.tokens) # Output: ['token', 'isering']Opretter en BPE-tokenizer, træner den på et lille korpus og viser BPE-tokens for et ord.
Oprindelse
BPE står for Byte Pair Encoding, en datakompressionsalgoritme, der blev tilpasset til subord-tokenisering af Rico Sennrich et al. i 2016.