Transformer-arkitektur

Transformer-arkitekturen er en neural netværksarkitektur, der udelukkende baserer sig på opmærksomhedsmekanismer og har revolutionerende betydning for behandling af sekvensdata.

Kort fortalt

Transformer-arkitekturen er en måde at bygge neurale netværk på, der kan forstå sammenhænge i tekst ved at se på alle ord på én gang i stedet for én efter én.

Kategori: arkitektur
Niveau: øvet

Betydninger

1
En neural netværksarkitektur, der er baseret på en multi-head self-attention-mekanisme og positionelle encodinger, og som består af en encoder og en decoder (eller kun encoder/decoder afhængigt af varianten).
- Transformer-arkitekturen har muliggjort parallel træning af store mængder data. — Vaswani et al., 2017
- I BERT bruges kun encoder-delen af Transformer-arkitekturen. — Devlin et al., 2019

Hvornår bruges det

Transformer-arkitekturen anvendes i næsten alle moderne sprogmodeller som GPT, BERT og T5 samt i andre domæner som billedgenkendelse og lydbehandling. Den er grundlaget for store sprogmodeller og er standarden i NLP.

Kodeeksempel

import torch.nn as nn
# Opret en Transformer encoder-layer med 512-dim model, 8 hoveder, 2048 FF-størrelse
encoder_layer = nn.TransformerEncoderLayer(d_model=512, nhead=8, dim_feedforward=2048)
transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=6)

Eksempel på oprettelse af en Transformer-encoder i PyTorch.

Oprindelse

Termen 'Transformer' blev introduceret i artiklen 'Attention Is All You Need' (2017) af Vaswani et al., hvor de præsenterede en arkitektur uden rekurens eller convolutioner.

Afledte ord

Transformer-model Transformer-baseret

Kilder

Attention Is All You Need (Vaswani et al., 2017)
BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2019)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i arkitektur →Tilfældigt opslag →