subword-tokenization

En tokeniseringsteknik, hvor ord opdeles i mindre enheder (subwords) baseret på frekvens, så modellen kan håndtere ukendte ord og morfologisk variation.

Kort fortalt

Subword-tokenization er en metode, der deler ord op i meningsfulde dele (fx 'tokenisering' → 'token', 'isering'), så AI-modeller bedre kan forstå sjældne eller nye ord.

Kategori: teknik
Niveau: øvet

Betydninger

1
En tokeniseringsmetode, der opdeler tekst i underord- eller undertegnenheder (subwords) ved hjælp af statistiske eller regelbaserede metoder, ofte baseret på frekvensanalyse af træningskorpus.
- Subword-tokenization med Byte Pair Encoding (BPE) lærer at flette de hyppigste tegnpar i et korpus, indtil et ønsket ordforråd er nået. — Neural Machine Translation of Rare Words with Subword Units (2016)
- WordPiece-tokenization, brugt i BERT, anvender en likelihood-baseret tilgang til at opbygge subword-vokabularet. — BERT: Pre-training of Deep Bidirectional Transformers (2018)

Hvornår bruges det

Subword-tokenization anvendes primært i moderne sprogmodeller som GPT, BERT og T5 for at reducere ordforrådets størrelse og håndtere ord uden for træningsdata. Teknikken giver en balance mellem ord- og tegntokenisering ved at lære et sæt af hyppigt forekommende delord.

Kodeeksempel

from tokenizers import Tokenizer, models, trainers

tokenizer = Tokenizer(models.BPE())
trainer = trainers.BpeTrainer(vocab_size=1000, min_frequency=2)

corpus = ["subword tokenization er nyttigt", "det opdeler ord i delord"]
tokenizer.train_from_iterator(corpus, trainer)

output = tokenizer.encode("subword tokenization")
print(output.tokens)

Eksempel på træning af en BPE-tokenizer med biblioteket 'tokenizers'.

Oprindelse

Subword-tokenization opstod som en løsning på problemer med faste ordforråd i neural sprogbehandling, populært gjort af Sennrich et al. (2016) med Byte Pair Encoding (BPE) til maskinoversættelse.

Afledte ord

subword-tokenizer

Kilder

Neural Machine Translation of Rare Words with Subword Units (2016)
Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates (2018)
Japanese and Korean Voice Search (2012) [WordPiece]

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →