tokenisering
Tokenisering er processen med at opdele en tekst i mindre enheder (tokens), typisk ord, underord eller tegn, som modellen kan behandle.
Kort fortalt
Tokenisering er at gøre tekst klar til en AI-model ved at hakke den i bidder (tokens) – ligesom at skære en pizza i stykker, så hver bid kan spises.
- Kategori
- teknik
- Niveau
- begynder
Betydninger
1- 1
Processen med at konvertere en tekststreng til en sekvens af tokens (f.eks. ord, underord eller tegn), som er de grundlæggende inputenheder for en sprogmodel.
- Før modellen kan forstå sætningen 'Kunstig intelligens er spændende', skal den tokeniseres til ['Kunstig', 'intelligens', 'er', 'spændende'].
- Subword-tokenisering som BPE kan opdele ord i mindre enheder, f.eks. 'tokenisering' → ['token', 'iser', 'ing'].
Hvornår bruges det
Tokenisering anvendes som et forbehandlingstrin i næsten alle NLP-opgaver, fx når man sender tekst til en sprogmodel som GPT eller BERT. Valget af tokeniseringsmetode (ordsplitning, subword-tokenisering som BPE eller WordPiece) påvirker modellens effektivitet og sprogforståelse.
Kodeeksempel
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
text = "Tokenization is important."
tokens = tokenizer.tokenize(text)
print(tokens) # ['token', '##ization', 'is', 'important', '.']Eksempel på tokenisering med BERTs WordPiece-tokenizer. 'Tokenization' opdeles i 'token' og '##ization'.
Oprindelse
Fra engelsk 'tokenization', afledt af 'token' (tegn, symbol) og '-isering' (handling). Ordet opstod i computervidenskab i 1960'erne og blev overtaget af NLP i 2010'erne med subword-metoder.
Afledte ord
3Kilder
2- Neural Machine Translation of Rare Words with Subword Units
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding