position-embedding

En teknik i transformer-modeller, der indlejrer information om token-positioner i sekvensen for at give modellen en forståelse af rækkefølge.

Kort fortalt

Position-embedding er en måde at fortælle en transformer, hvor i en sætning hvert ord står, så den kan forstå rækkefølgen.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En vektor, der tilføjes token-embeddingen for at angive tokenets position i sekvensen; kan være foruddefineret (sinusformet) eller indlært.

    • I BERT anvendes en indlært position-embedding for hvert token.Devlin et al., 2018
    • Transformer-modellen tilføjer en sinusformet position-embedding til input-embeddingen.Vaswani et al., 2017

Hvornår bruges det

Position-embedding anvendes i transformer-modeller som BERT og GPT for at tilføje positionsinformation til token-embeddings, da den selvopmærksomme mekanisme ikke har en medfødt forståelse af sekvensrækkefølge.

Formel

For sinusformet position-embedding: PE(pos,2i) = sin(pos/10000^(2i/d_model)), PE(pos,2i+1) = cos(pos/10000^(2i/d_model))

Kodeeksempel

def sinusoidal_position_embedding(seq_len, d_model):
    pe = torch.zeros(seq_len, d_model)
    position = torch.arange(0, seq_len, dtype=torch.float).unsqueeze(1)
    div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
    pe[:, 0::2] = torch.sin(position * div_term)
    pe[:, 1::2] = torch.cos(position * div_term)
    return pe

Implementering af sinusformet position-embedding i PyTorch.

Oprindelse

Begrebet blev introduceret i artikel 'Attention Is All You Need' (Vaswani et al., 2017) for at kompensere for transformerens manglende sekvensrækkefølge.

Afledte ord

2

Kilder

2
  • Attention Is All You Need
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding