Self-Attention Mechanism
Selvopmærksomhedsmekanisme er en operation i neurale netværk, der beregner vægtede repræsentationer af elementer i en sekvens baseret på deres indbyrdes relationer.
Kort fortalt
En metode, der giver modellen mulighed for at fokusere på forskellige dele af inputtet afhængigt af konteksten, ligesom når du læser en sætning og lægger mest vægt på de vigtigste ord.
- Kategori
- arkitektur
- Niveau
- øvet
Betydninger
1- 1
En operation, der for hvert element i en sekvens beregner en vægtet sum af alle elementer, hvor vægtene bestemmes af en opmærksomhedsfunktion mellem elementerne.
- Self-attention gør det muligt for modellen at vægte betydningen af hvert ord i forhold til alle andre ord i sætningen.
Hvornår bruges det
Self-attention bruges i transformerarkitekturer til at modellere afhængigheder mellem alle positioner i en sekvens på én gang. Det er centralt i sprogmodeller som GPT og BERT, hvor det muliggør parallel beregning og fanger langtrækkende relationer.
Formel
Attention(Q,K,V) = softmax(QK^T/√d_k)VKodeeksempel
def self_attention(Q, K, V):
d_k = Q.shape[-1]
scores = np.dot(Q, K.T) / np.sqrt(d_k)
weights = softmax(scores, axis=-1)
return np.dot(weights, V)En forenklet implementering af self-attention i NumPy.
Oprindelse
Begrebet blev introduceret i 2017 i artiklen 'Attention Is All You Need' af Vaswani et al., der dannede grundlag for transformerarkitekturen.
Kilder
1- Attention Is All You Need (Vaswani et al., 2017)