Tokenization

Tokenization er processen med at opdele en tekst i mindre enheder kaldet tokens, som kan være ord, underord eller tegn.

Kort fortalt

Tokenization gør tekst klar til maskiner ved at hakke den i bidder, som modellen kan forstå.

Kategori
teknik
Niveau
begynder
Udtale
/ˌtoʊkənaɪˈzeɪʃən/

Betydninger

1
  1. 1

    Processen med at opdele en tekststreng i en sekvens af tokens, som er de mindste meningsfulde enheder for en given model, ofte ord, underord (subwords) eller enkelte tegn.

    • Før vi kan fodre teksten ind i modellen, skal vi først anvende tokenization for at omdanne den til tokens.
    • Moderne sprogmodeller som GPT-4 bruger subword-tokenization (f.eks. BPE) for at håndtere ord uden for ordforrådet.

Hvornår bruges det

Tokenization bruges som et indledende træk i næsten alle NLP-opgaver, fra tekstklassificering til sprogmodellering, for at konvertere rå tekst til numeriske repræsentationer.

Kodeeksempel

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer.tokenize("Tokenization is key!")
print(tokens)  # ['token', '##ization', 'is', 'key', '!']

Eksempel på brug af Hugging Face Transformers til at tokenisere en sætning med BERTs WordPiece-tokenizer.

Oprindelse

Afledt af 'token' (tegn, symbol) og '-ization' (gørelse), dannet efter mønster af engelsk 'tokenization'.

Afledte ord

3

Kilder

2
  • Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
  • Japanese and Korean Voice Search (Schuster & Nakajima, 2012)