Tokenization

Tokenization er processen med at opdele en tekst i mindre enheder kaldet tokens, som kan være ord, underord eller tegn.

Kort fortalt

Tokenization gør tekst klar til maskiner ved at hakke den i bidder, som modellen kan forstå.

Kategori: teknik
Niveau: begynder
Udtale: /ˌtoʊkənaɪˈzeɪʃən/

Betydninger

1
Processen med at opdele en tekststreng i en sekvens af tokens, som er de mindste meningsfulde enheder for en given model, ofte ord, underord (subwords) eller enkelte tegn.
- Før vi kan fodre teksten ind i modellen, skal vi først anvende tokenization for at omdanne den til tokens.
- Moderne sprogmodeller som GPT-4 bruger subword-tokenization (f.eks. BPE) for at håndtere ord uden for ordforrådet.

Hvornår bruges det

Tokenization bruges som et indledende træk i næsten alle NLP-opgaver, fra tekstklassificering til sprogmodellering, for at konvertere rå tekst til numeriske repræsentationer.

Kodeeksempel

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer.tokenize("Tokenization is key!")
print(tokens)  # ['token', '##ization', 'is', 'key', '!']

Eksempel på brug af Hugging Face Transformers til at tokenisere en sætning med BERTs WordPiece-tokenizer.

Oprindelse

Afledt af 'token' (tegn, symbol) og '-ization' (gørelse), dannet efter mønster af engelsk 'tokenization'.

Afledte ord

tokenizer subword-tokenization ordforråd

Kilder

Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
Japanese and Korean Voice Search (Schuster & Nakajima, 2012)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →