padding token

Et padding token er et specialtoken, der tilføjes til korte sekvenser for at opnå ensartet længde i et batch.

Kort fortalt

Padding token bruges til at fylde kortere sætninger op, så alle sætninger i en batch har samme længde.

Kategori: teknik
Niveau: begynder

Betydninger

1
Et specialtoken, der indsættes i en sekvens for at opnå en ensartet længde på tværs af et batch, typisk repræsenteret som [PAD] og med en embeddingsværdi, der ignoreres under træning.
- I tokenisering tilføjes padding tokens til korte sætninger, så alle har længde 512.
- Opmærksomhedsmasken sikrer, at padding tokens ikke bidrager til beregningen af attention scores.

Hvornår bruges det

Padding tokens anvendes i sprogmodeller og transformere, hvor modeller kræver input af fast længde. De tilføjes typisk i slutningen af sekvenser og ignoreres under opmærksomhedsberegninger via en opmærksomhedsmasker.

Kodeeksempel

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
sentences = ['Hello world', 'Hi']
encoded = tokenizer(sentences, padding=True, return_tensors='pt')
print(encoded['input_ids'])

Eksempel på brug af padding i Hugging Face tokenizer. Padding=True tilføjer padding tokens så alle sekvenser har samme længde.

Oprindelse

Udtrykket 'padding' kommer fra engelsk, hvor det betyder at udfylde eller polstre, og 'token' henviser til en enhed i tekstbehandling.

Afledte ord

padding mask padding side

Kilder

Hugging Face Tokenizer Documentation

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →