Tokenizer

En tokenizer er et værktøj der opdeler tekst i mindre enheder (tokens) til brug i sprogmodeller.

Kort fortalt

En tokenizer gør det muligt for en AI at 'læse' tekst ved at hakke den op i stykker den kan regne på.

Kategori
teknik
Niveau
begynder
Udtale
/ˈtoʊkənaɪzər/

Betydninger

1
  1. 1

    En tokenizer er en komponent i NLP-systemer der konverterer rå tekst til en sekvens af tokens — numeriske repræsentationer af ord, underord eller tegn — som kan behandles af en sprogmodel.

    • BERT anvender en WordPiece-tokenizer der opdeler ord som 'levering' i ['leve', '##ring'].Devlin et al., 2019 (BERT)
    • GPT-modeller bruger en byte-par encoding (BPE) tokenizer fra OpenAI's tiktoken-bibliotek.OpenAI, 2023 (GPT-4)

Hvornår bruges det

Tokenizer bruges i forberedelsesfasen af NLP-opgaver, før teksten sendes ind i en model. Valget af tokenizer har stor indflydelse på modelens ydeevne og sprogforståelse.

Kodeeksempel

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer.tokenize("Hello, world!")
print(tokens)  # ['hello', ',', 'world', '!']

Eksempel på hvordan man bruger en tokenizer fra Hugging Face Transformers.

Oprindelse

Fra engelsk 'tokenize' (afledt af 'token', tegn/enhed) med suffix -izer (noget der gør).

Afledte ord

3

Kilder

2
  • Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2016)
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)