Tokenizer
En tokenizer er et værktøj der opdeler tekst i mindre enheder (tokens) til brug i sprogmodeller.
Kort fortalt
En tokenizer gør det muligt for en AI at 'læse' tekst ved at hakke den op i stykker den kan regne på.
- Kategori
- teknik
- Niveau
- begynder
- Udtale
- /ˈtoʊkənaɪzər/
Betydninger
1- 1
En tokenizer er en komponent i NLP-systemer der konverterer rå tekst til en sekvens af tokens — numeriske repræsentationer af ord, underord eller tegn — som kan behandles af en sprogmodel.
- BERT anvender en WordPiece-tokenizer der opdeler ord som 'levering' i ['leve', '##ring']. — Devlin et al., 2019 (BERT)
- GPT-modeller bruger en byte-par encoding (BPE) tokenizer fra OpenAI's tiktoken-bibliotek. — OpenAI, 2023 (GPT-4)
Hvornår bruges det
Tokenizer bruges i forberedelsesfasen af NLP-opgaver, før teksten sendes ind i en model. Valget af tokenizer har stor indflydelse på modelens ydeevne og sprogforståelse.
Kodeeksempel
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer.tokenize("Hello, world!")
print(tokens) # ['hello', ',', 'world', '!']Eksempel på hvordan man bruger en tokenizer fra Hugging Face Transformers.
Oprindelse
Fra engelsk 'tokenize' (afledt af 'token', tegn/enhed) med suffix -izer (noget der gør).
Afledte ord
3Kilder
2- Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)