padding token

Et padding token er et specialtoken, der tilføjes til korte sekvenser for at opnå ensartet længde i et batch.

Kort fortalt

Padding token bruges til at fylde kortere sætninger op, så alle sætninger i en batch har samme længde.

Kategori
teknik
Niveau
begynder

Betydninger

1
  1. 1

    Et specialtoken, der indsættes i en sekvens for at opnå en ensartet længde på tværs af et batch, typisk repræsenteret som [PAD] og med en embeddingsværdi, der ignoreres under træning.

    • I tokenisering tilføjes padding tokens til korte sætninger, så alle har længde 512.
    • Opmærksomhedsmasken sikrer, at padding tokens ikke bidrager til beregningen af attention scores.

Hvornår bruges det

Padding tokens anvendes i sprogmodeller og transformere, hvor modeller kræver input af fast længde. De tilføjes typisk i slutningen af sekvenser og ignoreres under opmærksomhedsberegninger via en opmærksomhedsmasker.

Kodeeksempel

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
sentences = ['Hello world', 'Hi']
encoded = tokenizer(sentences, padding=True, return_tensors='pt')
print(encoded['input_ids'])

Eksempel på brug af padding i Hugging Face tokenizer. Padding=True tilføjer padding tokens så alle sekvenser har samme længde.

Oprindelse

Udtrykket 'padding' kommer fra engelsk, hvor det betyder at udfylde eller polstre, og 'token' henviser til en enhed i tekstbehandling.

Afledte ord

2

Kilder

1
  • Hugging Face Tokenizer Documentation