subword-tokenization
En tokeniseringsteknik, hvor ord opdeles i mindre enheder (subwords) baseret på frekvens, så modellen kan håndtere ukendte ord og morfologisk variation.
Kort fortalt
Subword-tokenization er en metode, der deler ord op i meningsfulde dele (fx 'tokenisering' → 'token', 'isering'), så AI-modeller bedre kan forstå sjældne eller nye ord.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En tokeniseringsmetode, der opdeler tekst i underord- eller undertegnenheder (subwords) ved hjælp af statistiske eller regelbaserede metoder, ofte baseret på frekvensanalyse af træningskorpus.
- Subword-tokenization med Byte Pair Encoding (BPE) lærer at flette de hyppigste tegnpar i et korpus, indtil et ønsket ordforråd er nået. — Neural Machine Translation of Rare Words with Subword Units (2016)
- WordPiece-tokenization, brugt i BERT, anvender en likelihood-baseret tilgang til at opbygge subword-vokabularet. — BERT: Pre-training of Deep Bidirectional Transformers (2018)
Hvornår bruges det
Subword-tokenization anvendes primært i moderne sprogmodeller som GPT, BERT og T5 for at reducere ordforrådets størrelse og håndtere ord uden for træningsdata. Teknikken giver en balance mellem ord- og tegntokenisering ved at lære et sæt af hyppigt forekommende delord.
Kodeeksempel
from tokenizers import Tokenizer, models, trainers
tokenizer = Tokenizer(models.BPE())
trainer = trainers.BpeTrainer(vocab_size=1000, min_frequency=2)
corpus = ["subword tokenization er nyttigt", "det opdeler ord i delord"]
tokenizer.train_from_iterator(corpus, trainer)
output = tokenizer.encode("subword tokenization")
print(output.tokens)Eksempel på træning af en BPE-tokenizer med biblioteket 'tokenizers'.
Oprindelse
Subword-tokenization opstod som en løsning på problemer med faste ordforråd i neural sprogbehandling, populært gjort af Sennrich et al. (2016) med Byte Pair Encoding (BPE) til maskinoversættelse.
Afledte ord
1Kilder
3- Neural Machine Translation of Rare Words with Subword Units (2016)
- Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates (2018)
- Japanese and Korean Voice Search (2012) [WordPiece]