token-id
En numerisk identifikator, der entydigt repræsenterer et token i en models ordforråd.
Kort fortalt
Token-id er et heltal, der bruges til at repræsentere hvert ord eller underord i en sprogmodel.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Et heltal, der fungerer som en entydig identifikator for et token (fx et ord eller underord) i en sprogmodels ordforråd.
- Hvert token i inputsekvensen erstattes med sit token-id, før det sendes ind i modellen.
- Modellens softmax-lag producerer en sandsynlighedsfordeling over alle token-ids i ordforrådet.
Hvornår bruges det
Token-ids anvendes i forarbejdning og inferens af sprogmodeller til at konvertere tekst til numeriske sekvenser, som modellen kan behandle. Inputtekst tokeniseres og hvert token tildeles sit token-id fra et fastlagt ordforråd.
Kodeeksempel
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
token = "hello"
token_id = tokenizer.convert_tokens_to_ids(token)
print(token_id) # Output: 7592Eksempel på, hvordan man henter token-id for et token ved hjælp af Hugging Face Transformers.
Oprindelse
Sammensat af 'token' (fra engelsk, betyder symbol eller enhed) og 'ID' (forkortelse for identifikator).