Transformer
Transformer er en neural netværksarkitektur, der udelukkende er baseret på selvopmærksomhedsmekanismer og uden brug af rekurente eller konvolutionelle lag.
Kort fortalt
En Transformer er en type AI-model, der kan forstå sammenhænge i tekst ved at se på alle ord på én gang i stedet for én efter én.
- Kategori
- arkitektur
- Niveau
- øvet
- Udtale
- /trænsˈfɔːrmər/
Betydninger
1- 1
En neural netværksarkitektur, der anvender selvopmærksomhed (self-attention) til at bearbejde sekvenser af data, primært tekst, men også billeder og andre modaliteter.
- GPT-3 er en stor sprogmodel baseret på Transformer-arkitekturen. — Brown et al., 2020
- Transformer-modellen revolutionerede naturlig sprogbehandling med sin evne til at fange langdistanceafhængigheder. — Vaswani et al., 2017
Hvornår bruges det
Transformere bruges som grundlæggende byggesten i næsten alle moderne sprogmodeller, herunder GPT, BERT og T5. De anvendes også i computer vision og multimodale modeller.
Formel
Attention(Q,K,V) = softmax(QK^T/√d_k)VKodeeksempel
import torch
import torch.nn.functional as F
def scaled_dot_product_attention(Q, K, V):
d_k = Q.size(-1)
scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))
attn_weights = F.softmax(scores, dim=-1)
output = torch.matmul(attn_weights, V)
return output, attn_weightsImplementering af den skalerede prikprodukt-opmærksomhed (scaled dot-product attention) som anvendt i Transformer-modellen.
Oprindelse
Termen 'Transformer' blev introduceret af Vaswani et al. i artiklen 'Attention Is All You Need' (2017), hvor de præsenterede en ny arkitektur, der transformerede indlejrede repræsentationer gennem opmærksomhedslag.
