tokenisering

Tokenisering er processen med at opdele en tekst i mindre enheder (tokens), typisk ord, underord eller tegn, som modellen kan behandle.

Kort fortalt

Tokenisering er at gøre tekst klar til en AI-model ved at hakke den i bidder (tokens) – ligesom at skære en pizza i stykker, så hver bid kan spises.

Kategori: teknik
Niveau: begynder

Betydninger

1
Processen med at konvertere en tekststreng til en sekvens af tokens (f.eks. ord, underord eller tegn), som er de grundlæggende inputenheder for en sprogmodel.
- Før modellen kan forstå sætningen 'Kunstig intelligens er spændende', skal den tokeniseres til ['Kunstig', 'intelligens', 'er', 'spændende'].
- Subword-tokenisering som BPE kan opdele ord i mindre enheder, f.eks. 'tokenisering' → ['token', 'iser', 'ing'].

Hvornår bruges det

Tokenisering anvendes som et forbehandlingstrin i næsten alle NLP-opgaver, fx når man sender tekst til en sprogmodel som GPT eller BERT. Valget af tokeniseringsmetode (ordsplitning, subword-tokenisering som BPE eller WordPiece) påvirker modellens effektivitet og sprogforståelse.

Kodeeksempel

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
text = "Tokenization is important."
tokens = tokenizer.tokenize(text)
print(tokens)  # ['token', '##ization', 'is', 'important', '.']

Eksempel på tokenisering med BERTs WordPiece-tokenizer. 'Tokenization' opdeles i 'token' og '##ization'.

Oprindelse

Fra engelsk 'tokenization', afledt af 'token' (tegn, symbol) og '-isering' (handling). Ordet opstod i computervidenskab i 1960'erne og blev overtaget af NLP i 2010'erne med subword-metoder.

Afledte ord

subword-tokenisering BPE-tokenisering WordPiece-tokenisering

Kilder

Neural Machine Translation of Rare Words with Subword Units
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →