position-embedding

En teknik i transformer-modeller, der indlejrer information om token-positioner i sekvensen for at give modellen en forståelse af rækkefølge.

Kort fortalt

Position-embedding er en måde at fortælle en transformer, hvor i en sætning hvert ord står, så den kan forstå rækkefølgen.

Kategori: teknik
Niveau: øvet

Betydninger

1
En vektor, der tilføjes token-embeddingen for at angive tokenets position i sekvensen; kan være foruddefineret (sinusformet) eller indlært.
- I BERT anvendes en indlært position-embedding for hvert token. — Devlin et al., 2018
- Transformer-modellen tilføjer en sinusformet position-embedding til input-embeddingen. — Vaswani et al., 2017

Hvornår bruges det

Position-embedding anvendes i transformer-modeller som BERT og GPT for at tilføje positionsinformation til token-embeddings, da den selvopmærksomme mekanisme ikke har en medfødt forståelse af sekvensrækkefølge.

Formel

For sinusformet position-embedding: PE(pos,2i) = sin(pos/10000^(2i/d_model)), PE(pos,2i+1) = cos(pos/10000^(2i/d_model))

Kodeeksempel

def sinusoidal_position_embedding(seq_len, d_model):
    pe = torch.zeros(seq_len, d_model)
    position = torch.arange(0, seq_len, dtype=torch.float).unsqueeze(1)
    div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
    pe[:, 0::2] = torch.sin(position * div_term)
    pe[:, 1::2] = torch.cos(position * div_term)
    return pe

Implementering af sinusformet position-embedding i PyTorch.

Oprindelse

Begrebet blev introduceret i artikel 'Attention Is All You Need' (Vaswani et al., 2017) for at kompensere for transformerens manglende sekvensrækkefølge.

Afledte ord

positional encoding position embedding layer

Kilder

Attention Is All You Need
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →