tokenisering

Tokenisering er processen med at opdele en tekst i mindre enheder (tokens), typisk ord, underord eller tegn, som modellen kan behandle.

Kort fortalt

Tokenisering er at gøre tekst klar til en AI-model ved at hakke den i bidder (tokens) – ligesom at skære en pizza i stykker, så hver bid kan spises.

Kategori
teknik
Niveau
begynder

Betydninger

1
  1. 1

    Processen med at konvertere en tekststreng til en sekvens af tokens (f.eks. ord, underord eller tegn), som er de grundlæggende inputenheder for en sprogmodel.

    • Før modellen kan forstå sætningen 'Kunstig intelligens er spændende', skal den tokeniseres til ['Kunstig', 'intelligens', 'er', 'spændende'].
    • Subword-tokenisering som BPE kan opdele ord i mindre enheder, f.eks. 'tokenisering' → ['token', 'iser', 'ing'].

Hvornår bruges det

Tokenisering anvendes som et forbehandlingstrin i næsten alle NLP-opgaver, fx når man sender tekst til en sprogmodel som GPT eller BERT. Valget af tokeniseringsmetode (ordsplitning, subword-tokenisering som BPE eller WordPiece) påvirker modellens effektivitet og sprogforståelse.

Kodeeksempel

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
text = "Tokenization is important."
tokens = tokenizer.tokenize(text)
print(tokens)  # ['token', '##ization', 'is', 'important', '.']

Eksempel på tokenisering med BERTs WordPiece-tokenizer. 'Tokenization' opdeles i 'token' og '##ization'.

Oprindelse

Fra engelsk 'tokenization', afledt af 'token' (tegn, symbol) og '-isering' (handling). Ordet opstod i computervidenskab i 1960'erne og blev overtaget af NLP i 2010'erne med subword-metoder.

Afledte ord

3

Kilder

2
  • Neural Machine Translation of Rare Words with Subword Units
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding