Transformer

Transformer er en neural netværksarkitektur, der udelukkende er baseret på selvopmærksomhedsmekanismer og uden brug af rekurente eller konvolutionelle lag.

Kort fortalt

En Transformer er en type AI-model, der kan forstå sammenhænge i tekst ved at se på alle ord på én gang i stedet for én efter én.

Kategori
arkitektur
Niveau
øvet
Udtale
/trænsˈfɔːrmər/

Betydninger

1
  1. 1

    En neural netværksarkitektur, der anvender selvopmærksomhed (self-attention) til at bearbejde sekvenser af data, primært tekst, men også billeder og andre modaliteter.

    • GPT-3 er en stor sprogmodel baseret på Transformer-arkitekturen.Brown et al., 2020
    • Transformer-modellen revolutionerede naturlig sprogbehandling med sin evne til at fange langdistanceafhængigheder.Vaswani et al., 2017

Hvornår bruges det

Transformere bruges som grundlæggende byggesten i næsten alle moderne sprogmodeller, herunder GPT, BERT og T5. De anvendes også i computer vision og multimodale modeller.

Formel

Attention(Q,K,V) = softmax(QK^T/√d_k)V

Kodeeksempel

import torch
import torch.nn.functional as F

def scaled_dot_product_attention(Q, K, V):
    d_k = Q.size(-1)
    scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))
    attn_weights = F.softmax(scores, dim=-1)
    output = torch.matmul(attn_weights, V)
    return output, attn_weights

Implementering af den skalerede prikprodukt-opmærksomhed (scaled dot-product attention) som anvendt i Transformer-modellen.

Oprindelse

Termen 'Transformer' blev introduceret af Vaswani et al. i artiklen 'Attention Is All You Need' (2017), hvor de præsenterede en ny arkitektur, der transformerede indlejrede repræsentationer gennem opmærksomhedslag.

Afledte ord

4

Kilder

1