BPE-segmentering

forkortelse for Byte Pair Encoding-segmentering

BPE-segmentering er en datakomprimeringstilpasset metode til deling af ord i underord-enheder baseret på hyppigste tegnpar.

Kort fortalt

En måde at opdele ord i mindre bidder ved at slå de hyppigste tegnpar sammen.

Kategori: teknik
Niveau: øvet

Betydninger

1
En algoritme der iterativt erstatter det mest hyppige par af på hinanden følgende tegn i en tekst med et nyt symbol, indtil et foruddefineret antal symboler er nået; den resulterende ordforråd bruges til at segmentere ord i underord-enheder.
- Efter træning af BPE-segmentering på et dansk korpus segmenteres ordet 'laveste' til ['lav', 'este'].

Hvornår bruges det

BPE-segmentering bruges i tokeniseringsfasen af moderne sprogmodeller som GPT og BERT til at håndtere ukendte ord og reducere ordforrådstørrelsen.

Kodeeksempel

from tokenizers import Tokenizer, models
# Initialiser en BPE-tokenizer med et tomt ordforråd
tokenizer = Tokenizer(models.BPE())
# Træning på eksempeltekster
trainer = tokenizer.train(["laveste", "frekvens", "eksempel"])
# Segmenter et ord
encoded = tokenizer.encode("laveste")
print(encoded.tokens())  # Output: ['lav', 'este']

Opretter en BPE-tokenizer, træner den på eksempler og segmenterer et ord.

Oprindelse

Inspireret af Byte Pair Encoding-komprimering fra 1994, tilpasset til NLP subword-tokenisering.

Afledte ord

BPE-model BPE-tokenizer

Kilder

Neural Machine Translation of Rare Words with Subword Units

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →