subword-tokenization

En tokeniseringsteknik, hvor ord opdeles i mindre enheder (subwords) baseret på frekvens, så modellen kan håndtere ukendte ord og morfologisk variation.

Kort fortalt

Subword-tokenization er en metode, der deler ord op i meningsfulde dele (fx 'tokenisering' → 'token', 'isering'), så AI-modeller bedre kan forstå sjældne eller nye ord.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En tokeniseringsmetode, der opdeler tekst i underord- eller undertegnenheder (subwords) ved hjælp af statistiske eller regelbaserede metoder, ofte baseret på frekvensanalyse af træningskorpus.

    • Subword-tokenization med Byte Pair Encoding (BPE) lærer at flette de hyppigste tegnpar i et korpus, indtil et ønsket ordforråd er nået.Neural Machine Translation of Rare Words with Subword Units (2016)
    • WordPiece-tokenization, brugt i BERT, anvender en likelihood-baseret tilgang til at opbygge subword-vokabularet.BERT: Pre-training of Deep Bidirectional Transformers (2018)

Hvornår bruges det

Subword-tokenization anvendes primært i moderne sprogmodeller som GPT, BERT og T5 for at reducere ordforrådets størrelse og håndtere ord uden for træningsdata. Teknikken giver en balance mellem ord- og tegntokenisering ved at lære et sæt af hyppigt forekommende delord.

Kodeeksempel

from tokenizers import Tokenizer, models, trainers

tokenizer = Tokenizer(models.BPE())
trainer = trainers.BpeTrainer(vocab_size=1000, min_frequency=2)

corpus = ["subword tokenization er nyttigt", "det opdeler ord i delord"]
tokenizer.train_from_iterator(corpus, trainer)

output = tokenizer.encode("subword tokenization")
print(output.tokens)

Eksempel på træning af en BPE-tokenizer med biblioteket 'tokenizers'.

Oprindelse

Subword-tokenization opstod som en løsning på problemer med faste ordforråd i neural sprogbehandling, populært gjort af Sennrich et al. (2016) med Byte Pair Encoding (BPE) til maskinoversættelse.

Afledte ord

1

Kilder

3
  • Neural Machine Translation of Rare Words with Subword Units (2016)
  • Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates (2018)
  • Japanese and Korean Voice Search (2012) [WordPiece]