Transformer-model
Transformer-modellen er en neural netværksarkitektur baseret på self-attention-mekanismer, der erstatter rekursive og konvolutionelle lag.
Kort fortalt
Transformer-modellen er en avanceret arkitektur, der gør det muligt for AI at forstå sammenhænge i tekst ved at se på alle ord samtidigt.
- Kategori
- arkitektur
- Niveau
- øvet
- Udtale
- [tʁansˈfɔːmɐ ˈmoːðˀl]
Betydninger
1- 1
Transformer-modellen er en deep learning-arkitektur, der udelukkende anvender self-attention-mekanismer til at behandle sekventielle data, uden brug af rekurens eller konvolution. Den består af en encoder og en decoder (i den originale variant), hver med multi-head attention og feed-forward lag. Modellen kan paralleliseres effektivt under træning.
- I 2017 præsenterede Vaswani et al. Transformer-modellen, som satte ny state-of-the-art inden for maskinoversættelse. — Vaswani et al., 2017
- OpenAI's GPT-serie bygger på en decoder-only Transformer-arkitektur. — Brown et al., 2020
Hvornår bruges det
Transformer-modellen bruges som fundament for de fleste moderne sprogmodeller som GPT og BERT, og den har revolutioneret naturlig sprogbehandling. Den anvendes også inden for billedgenkendelse og andre domæner.
Kodeeksempel
import torch
import torch.nn.functional as F
def scaled_dot_product_attention(Q, K, V):
d_k = Q.size(-1)
scores = torch.matmul(Q, K.transpose(-2, -1)) / (d_k ** 0.5)
attn_weights = F.softmax(scores, dim=-1)
return torch.matmul(attn_weights, V)Eksempel på den skaleret dot-produkt attention, som er kernemekanismen i Transformer-modellen. Q, K, V er forespørgsels-, nøgle- og værdimatricer.
Oprindelse
Introduceret af Vaswani et al. i artiklen 'Attention Is All You Need' (2017). Navnet 'Transformer' refererer til arkitekturens evne til at transformere inputsekvenser til outputsekvenser.
Afledte ord
4Kilder
2- Attention Is All You Need (Vaswani et al., 2017)
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)