Transformer

Transformer er en neural netværksarkitektur, der udelukkende er baseret på selvopmærksomhedsmekanismer og uden brug af rekurente eller konvolutionelle lag.

Kort fortalt

En Transformer er en type AI-model, der kan forstå sammenhænge i tekst ved at se på alle ord på én gang i stedet for én efter én.

Kategori: arkitektur
Niveau: øvet
Udtale: /trænsˈfɔːrmər/

Betydninger

1
En neural netværksarkitektur, der anvender selvopmærksomhed (self-attention) til at bearbejde sekvenser af data, primært tekst, men også billeder og andre modaliteter.
- GPT-3 er en stor sprogmodel baseret på Transformer-arkitekturen. — Brown et al., 2020
- Transformer-modellen revolutionerede naturlig sprogbehandling med sin evne til at fange langdistanceafhængigheder. — Vaswani et al., 2017

Hvornår bruges det

Transformere bruges som grundlæggende byggesten i næsten alle moderne sprogmodeller, herunder GPT, BERT og T5. De anvendes også i computer vision og multimodale modeller.

Formel

Attention(Q,K,V) = softmax(QK^T/√d_k)V

Kodeeksempel

import torch
import torch.nn.functional as F

def scaled_dot_product_attention(Q, K, V):
    d_k = Q.size(-1)
    scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))
    attn_weights = F.softmax(scores, dim=-1)
    output = torch.matmul(attn_weights, V)
    return output, attn_weights

Implementering af den skalerede prikprodukt-opmærksomhed (scaled dot-product attention) som anvendt i Transformer-modellen.

Oprindelse

Termen 'Transformer' blev introduceret af Vaswani et al. i artiklen 'Attention Is All You Need' (2017), hvor de præsenterede en ny arkitektur, der transformerede indlejrede repræsentationer gennem opmærksomhedslag.

Afledte ord

Transformer-blok Transformer-encoder Transformer-decoder multi-head opmærksomhed

Kilder

Attention Is All You Need

Ressourcer

▶

Videoyoutube.com

Transformer Neural Networks, ChatGPT's foundation, Clearly Explained!!!

Se også

Mere

Flere i arkitektur →Tilfældigt opslag →