token-id

En numerisk identifikator, der entydigt repræsenterer et token i en models ordforråd.

Kort fortalt

Token-id er et heltal, der bruges til at repræsentere hvert ord eller underord i en sprogmodel.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Et heltal, der fungerer som en entydig identifikator for et token (fx et ord eller underord) i en sprogmodels ordforråd.

    • Hvert token i inputsekvensen erstattes med sit token-id, før det sendes ind i modellen.
    • Modellens softmax-lag producerer en sandsynlighedsfordeling over alle token-ids i ordforrådet.

Hvornår bruges det

Token-ids anvendes i forarbejdning og inferens af sprogmodeller til at konvertere tekst til numeriske sekvenser, som modellen kan behandle. Inputtekst tokeniseres og hvert token tildeles sit token-id fra et fastlagt ordforråd.

Kodeeksempel

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
token = "hello"
token_id = tokenizer.convert_tokens_to_ids(token)
print(token_id)  # Output: 7592

Eksempel på, hvordan man henter token-id for et token ved hjælp af Hugging Face Transformers.

Oprindelse

Sammensat af 'token' (fra engelsk, betyder symbol eller enhed) og 'ID' (forkortelse for identifikator).