Token
En token er den mindste enhed af tekst, som en sprogmodel behandler, typisk et ord, en underdel af et ord eller et tegn.
Kort fortalt
Kort fortalt: En token er en bid af tekst, som en AI-model læser og skriver — ligesom ord i en sætning, men nogle gange mindre stykker.
- Kategori
- begreb
- Niveau
- begynder
- Udtale
- /ˈtoʊkən/
Betydninger
1- 1
Den mindste enhed i en sprogmodels repræsentation af tekst, typisk et ord, en underord-del (subword) eller et enkelt tegn.
- Sætningen 'Jeg elsker AI' tokeniseres til ['Jeg', ' elsk', 'er', ' AI'] hvis subword-tokenisering bruges.
- De fleste moderne sprogmodeller har en maksimal kontekstlængde på 2048 eller 4096 tokens.
Hvornår bruges det
Tokenisering bruges i alle sprogmodeller, fra GPT til BERT, for at konvertere rå tekst til en sekvens af tokens. Antallet af tokens er en begrænsning for modelinput og output.
Kodeeksempel
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
text = "Hello, world!"
tokens = tokenizer.tokenize(text)
print(tokens) # ['hello', ',', 'world', '!']Eksempel på tokenisering med BERTs tokenizer.
Oprindelse
Fra engelsk 'token', oprindelig betyder 'tegn' eller 'symbol'.
Afledte ord
3Kilder
2- Radford et al., 'Language Models are Unsupervised Multitask Learners' (2019)
- Devlin et al., 'BERT: Pre-training of Deep Bidirectional Transformers' (2019)