padding token
Et padding token er et specialtoken, der tilføjes til korte sekvenser for at opnå ensartet længde i et batch.
Kort fortalt
Padding token bruges til at fylde kortere sætninger op, så alle sætninger i en batch har samme længde.
- Kategori
- teknik
- Niveau
- begynder
Betydninger
1- 1
Et specialtoken, der indsættes i en sekvens for at opnå en ensartet længde på tværs af et batch, typisk repræsenteret som [PAD] og med en embeddingsværdi, der ignoreres under træning.
- I tokenisering tilføjes padding tokens til korte sætninger, så alle har længde 512.
- Opmærksomhedsmasken sikrer, at padding tokens ikke bidrager til beregningen af attention scores.
Hvornår bruges det
Padding tokens anvendes i sprogmodeller og transformere, hvor modeller kræver input af fast længde. De tilføjes typisk i slutningen af sekvenser og ignoreres under opmærksomhedsberegninger via en opmærksomhedsmasker.
Kodeeksempel
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
sentences = ['Hello world', 'Hi']
encoded = tokenizer(sentences, padding=True, return_tensors='pt')
print(encoded['input_ids'])Eksempel på brug af padding i Hugging Face tokenizer. Padding=True tilføjer padding tokens så alle sekvenser har samme længde.
Oprindelse
Udtrykket 'padding' kommer fra engelsk, hvor det betyder at udfylde eller polstre, og 'token' henviser til en enhed i tekstbehandling.
Afledte ord
2Kilder
1- Hugging Face Tokenizer Documentation