position-embedding
En teknik i transformer-modeller, der indlejrer information om token-positioner i sekvensen for at give modellen en forståelse af rækkefølge.
Kort fortalt
Position-embedding er en måde at fortælle en transformer, hvor i en sætning hvert ord står, så den kan forstå rækkefølgen.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En vektor, der tilføjes token-embeddingen for at angive tokenets position i sekvensen; kan være foruddefineret (sinusformet) eller indlært.
- I BERT anvendes en indlært position-embedding for hvert token. — Devlin et al., 2018
- Transformer-modellen tilføjer en sinusformet position-embedding til input-embeddingen. — Vaswani et al., 2017
Hvornår bruges det
Position-embedding anvendes i transformer-modeller som BERT og GPT for at tilføje positionsinformation til token-embeddings, da den selvopmærksomme mekanisme ikke har en medfødt forståelse af sekvensrækkefølge.
Formel
For sinusformet position-embedding: PE(pos,2i) = sin(pos/10000^(2i/d_model)), PE(pos,2i+1) = cos(pos/10000^(2i/d_model))Kodeeksempel
def sinusoidal_position_embedding(seq_len, d_model):
pe = torch.zeros(seq_len, d_model)
position = torch.arange(0, seq_len, dtype=torch.float).unsqueeze(1)
div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
pe[:, 0::2] = torch.sin(position * div_term)
pe[:, 1::2] = torch.cos(position * div_term)
return peImplementering af sinusformet position-embedding i PyTorch.
Oprindelse
Begrebet blev introduceret i artikel 'Attention Is All You Need' (Vaswani et al., 2017) for at kompensere for transformerens manglende sekvensrækkefølge.
Afledte ord
2Kilder
2- Attention Is All You Need
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding