Token

En token er den mindste enhed af tekst, som en sprogmodel behandler, typisk et ord, en underdel af et ord eller et tegn.

Kort fortalt

Kort fortalt: En token er en bid af tekst, som en AI-model læser og skriver — ligesom ord i en sætning, men nogle gange mindre stykker.

Kategori: begreb
Niveau: begynder
Udtale: /ˈtoʊkən/

Betydninger

1
Den mindste enhed i en sprogmodels repræsentation af tekst, typisk et ord, en underord-del (subword) eller et enkelt tegn.
- Sætningen 'Jeg elsker AI' tokeniseres til ['Jeg', ' elsk', 'er', ' AI'] hvis subword-tokenisering bruges.
- De fleste moderne sprogmodeller har en maksimal kontekstlængde på 2048 eller 4096 tokens.

Hvornår bruges det

Tokenisering bruges i alle sprogmodeller, fra GPT til BERT, for at konvertere rå tekst til en sekvens af tokens. Antallet af tokens er en begrænsning for modelinput og output.

Kodeeksempel

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
text = "Hello, world!"
tokens = tokenizer.tokenize(text)
print(tokens)  # ['hello', ',', 'world', '!']

Eksempel på tokenisering med BERTs tokenizer.

Oprindelse

Fra engelsk 'token', oprindelig betyder 'tegn' eller 'symbol'.

Afledte ord

Tokenisering Token-grænse Subword-token

Kilder

Radford et al., 'Language Models are Unsupervised Multitask Learners' (2019)
Devlin et al., 'BERT: Pre-training of Deep Bidirectional Transformers' (2019)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →