Tokenizer

En tokenizer er et værktøj der opdeler tekst i mindre enheder (tokens) til brug i sprogmodeller.

Kort fortalt

En tokenizer gør det muligt for en AI at 'læse' tekst ved at hakke den op i stykker den kan regne på.

Kategori: teknik
Niveau: begynder
Udtale: /ˈtoʊkənaɪzər/

Betydninger

1
En tokenizer er en komponent i NLP-systemer der konverterer rå tekst til en sekvens af tokens — numeriske repræsentationer af ord, underord eller tegn — som kan behandles af en sprogmodel.
- BERT anvender en WordPiece-tokenizer der opdeler ord som 'levering' i ['leve', '##ring']. — Devlin et al., 2019 (BERT)
- GPT-modeller bruger en byte-par encoding (BPE) tokenizer fra OpenAI's tiktoken-bibliotek. — OpenAI, 2023 (GPT-4)

Hvornår bruges det

Tokenizer bruges i forberedelsesfasen af NLP-opgaver, før teksten sendes ind i en model. Valget af tokenizer har stor indflydelse på modelens ydeevne og sprogforståelse.

Kodeeksempel

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer.tokenize("Hello, world!")
print(tokens)  # ['hello', ',', 'world', '!']

Eksempel på hvordan man bruger en tokenizer fra Hugging Face Transformers.

Oprindelse

Fra engelsk 'tokenize' (afledt af 'token', tegn/enhed) med suffix -izer (noget der gør).

Afledte ord

tokenisering subword-tokenizer BPE-tokenizer

Kilder

Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →