Token

En token er den mindste enhed af tekst, som en sprogmodel behandler, typisk et ord, en underdel af et ord eller et tegn.

Kort fortalt

Kort fortalt: En token er en bid af tekst, som en AI-model læser og skriver — ligesom ord i en sætning, men nogle gange mindre stykker.

Kategori
begreb
Niveau
begynder
Udtale
/ˈtoʊkən/

Betydninger

1
  1. 1

    Den mindste enhed i en sprogmodels repræsentation af tekst, typisk et ord, en underord-del (subword) eller et enkelt tegn.

    • Sætningen 'Jeg elsker AI' tokeniseres til ['Jeg', ' elsk', 'er', ' AI'] hvis subword-tokenisering bruges.
    • De fleste moderne sprogmodeller har en maksimal kontekstlængde på 2048 eller 4096 tokens.

Hvornår bruges det

Tokenisering bruges i alle sprogmodeller, fra GPT til BERT, for at konvertere rå tekst til en sekvens af tokens. Antallet af tokens er en begrænsning for modelinput og output.

Kodeeksempel

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
text = "Hello, world!"
tokens = tokenizer.tokenize(text)
print(tokens)  # ['hello', ',', 'world', '!']

Eksempel på tokenisering med BERTs tokenizer.

Oprindelse

Fra engelsk 'token', oprindelig betyder 'tegn' eller 'symbol'.

Afledte ord

3

Kilder

2
  • Radford et al., 'Language Models are Unsupervised Multitask Learners' (2019)
  • Devlin et al., 'BERT: Pre-training of Deep Bidirectional Transformers' (2019)