Transformer-model

Transformer-modellen er en neural netværksarkitektur baseret på self-attention-mekanismer, der erstatter rekursive og konvolutionelle lag.

Kort fortalt

Transformer-modellen er en avanceret arkitektur, der gør det muligt for AI at forstå sammenhænge i tekst ved at se på alle ord samtidigt.

Kategori: arkitektur
Niveau: øvet
Udtale: [tʁansˈfɔːmɐ ˈmoːðˀl]

Betydninger

1
Transformer-modellen er en deep learning-arkitektur, der udelukkende anvender self-attention-mekanismer til at behandle sekventielle data, uden brug af rekurens eller konvolution. Den består af en encoder og en decoder (i den originale variant), hver med multi-head attention og feed-forward lag. Modellen kan paralleliseres effektivt under træning.
- I 2017 præsenterede Vaswani et al. Transformer-modellen, som satte ny state-of-the-art inden for maskinoversættelse. — Vaswani et al., 2017
- OpenAI's GPT-serie bygger på en decoder-only Transformer-arkitektur. — Brown et al., 2020

Hvornår bruges det

Transformer-modellen bruges som fundament for de fleste moderne sprogmodeller som GPT og BERT, og den har revolutioneret naturlig sprogbehandling. Den anvendes også inden for billedgenkendelse og andre domæner.

Kodeeksempel

import torch
import torch.nn.functional as F

def scaled_dot_product_attention(Q, K, V):
    d_k = Q.size(-1)
    scores = torch.matmul(Q, K.transpose(-2, -1)) / (d_k ** 0.5)
    attn_weights = F.softmax(scores, dim=-1)
    return torch.matmul(attn_weights, V)

Eksempel på den skaleret dot-produkt attention, som er kernemekanismen i Transformer-modellen. Q, K, V er forespørgsels-, nøgle- og værdimatricer.

Oprindelse

Introduceret af Vaswani et al. i artiklen 'Attention Is All You Need' (2017). Navnet 'Transformer' refererer til arkitekturens evne til at transformere inputsekvenser til outputsekvenser.

Afledte ord

encoder-decoder-transformer decoder-only-transformer multi-head attention self-attention

Kilder

Attention Is All You Need (Vaswani et al., 2017)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i arkitektur →Tilfældigt opslag →