Tokenization
Tokenization er processen med at opdele en tekst i mindre enheder kaldet tokens, som kan være ord, underord eller tegn.
Kort fortalt
Tokenization gør tekst klar til maskiner ved at hakke den i bidder, som modellen kan forstå.
- Kategori
- teknik
- Niveau
- begynder
- Udtale
- /ˌtoʊkənaɪˈzeɪʃən/
Betydninger
1- 1
Processen med at opdele en tekststreng i en sekvens af tokens, som er de mindste meningsfulde enheder for en given model, ofte ord, underord (subwords) eller enkelte tegn.
- Før vi kan fodre teksten ind i modellen, skal vi først anvende tokenization for at omdanne den til tokens.
- Moderne sprogmodeller som GPT-4 bruger subword-tokenization (f.eks. BPE) for at håndtere ord uden for ordforrådet.
Hvornår bruges det
Tokenization bruges som et indledende træk i næsten alle NLP-opgaver, fra tekstklassificering til sprogmodellering, for at konvertere rå tekst til numeriske repræsentationer.
Kodeeksempel
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer.tokenize("Tokenization is key!")
print(tokens) # ['token', '##ization', 'is', 'key', '!']Eksempel på brug af Hugging Face Transformers til at tokenisere en sætning med BERTs WordPiece-tokenizer.
Oprindelse
Afledt af 'token' (tegn, symbol) og '-ization' (gørelse), dannet efter mønster af engelsk 'tokenization'.
Afledte ord
3Kilder
2- Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
- Japanese and Korean Voice Search (Schuster & Nakajima, 2012)