BPE-token

forkortelse for Byte Pair Encoding-token

En BPE-token er en enhed af tekst genereret af Byte Pair Encoding, en subord-tokeniseringsalgoritme, der opdeler ord i hyppigt forekommende underenheder.

Kort fortalt

Kort fortalt: en BPE-token er en del af et ord (f.eks. 'token' eller '##ing') som en sprogmodel bruger til at forstå tekst.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En enhed af tekst, der er resultatet af Byte Pair Encoding-tokenisering, typisk en subord-del af et ord.

    • Ordet 'tokenisering' tokeniseres til BPE-tokens ['token', 'isering'].Eksempel, 2024
    • BPE-tokens som '##ing' gør det muligt for modellen at genkende bøjningsformer.Eksempel, 2024

Hvornår bruges det

BPE-tokens bruges i moderne sprogmodeller som GPT og BERT til at håndtere ord uden for ordforrådet og reducere ordforrådsstørrelsen. Tokeniseringen sker før modelindlæring og under inferens.

Kodeeksempel

from tokenizers import Tokenizer
from tokenizers.models import BPE

# Initialize a BPE tokenizer
tokenizer = Tokenizer(BPE())

# Train on a simple corpus
trainer = tokenizer.train(['tokenisering er en proces'], vocab_size=10)

# Encode a sentence
encoded = tokenizer.encode('tokenisering')
print(encoded.tokens)  # Output: ['token', 'isering']

Opretter en BPE-tokenizer, træner den på et lille korpus og viser BPE-tokens for et ord.

Oprindelse

BPE står for Byte Pair Encoding, en datakompressionsalgoritme, der blev tilpasset til subord-tokenisering af Rico Sennrich et al. i 2016.

Afledte ord

1

Kilder

2