Self-Attention Mechanism

Selvopmærksomhedsmekanisme er en operation i neurale netværk, der beregner vægtede repræsentationer af elementer i en sekvens baseret på deres indbyrdes relationer.

Kort fortalt

En metode, der giver modellen mulighed for at fokusere på forskellige dele af inputtet afhængigt af konteksten, ligesom når du læser en sætning og lægger mest vægt på de vigtigste ord.

Kategori
arkitektur
Niveau
øvet

Betydninger

1
  1. 1

    En operation, der for hvert element i en sekvens beregner en vægtet sum af alle elementer, hvor vægtene bestemmes af en opmærksomhedsfunktion mellem elementerne.

    • Self-attention gør det muligt for modellen at vægte betydningen af hvert ord i forhold til alle andre ord i sætningen.

Hvornår bruges det

Self-attention bruges i transformerarkitekturer til at modellere afhængigheder mellem alle positioner i en sekvens på én gang. Det er centralt i sprogmodeller som GPT og BERT, hvor det muliggør parallel beregning og fanger langtrækkende relationer.

Formel

Attention(Q,K,V) = softmax(QK^T/√d_k)V

Kodeeksempel

def self_attention(Q, K, V):
    d_k = Q.shape[-1]
    scores = np.dot(Q, K.T) / np.sqrt(d_k)
    weights = softmax(scores, axis=-1)
    return np.dot(weights, V)

En forenklet implementering af self-attention i NumPy.

Oprindelse

Begrebet blev introduceret i 2017 i artiklen 'Attention Is All You Need' af Vaswani et al., der dannede grundlag for transformerarkitekturen.

Kilder

1
  • Attention Is All You Need (Vaswani et al., 2017)