Transformer-arkitektur
Transformer-arkitekturen er en neural netværksarkitektur, der udelukkende baserer sig på opmærksomhedsmekanismer og har revolutionerende betydning for behandling af sekvensdata.
Kort fortalt
Transformer-arkitekturen er en måde at bygge neurale netværk på, der kan forstå sammenhænge i tekst ved at se på alle ord på én gang i stedet for én efter én.
- Kategori
- arkitektur
- Niveau
- øvet
Betydninger
1- 1
En neural netværksarkitektur, der er baseret på en multi-head self-attention-mekanisme og positionelle encodinger, og som består af en encoder og en decoder (eller kun encoder/decoder afhængigt af varianten).
- Transformer-arkitekturen har muliggjort parallel træning af store mængder data. — Vaswani et al., 2017
- I BERT bruges kun encoder-delen af Transformer-arkitekturen. — Devlin et al., 2019
Hvornår bruges det
Transformer-arkitekturen anvendes i næsten alle moderne sprogmodeller som GPT, BERT og T5 samt i andre domæner som billedgenkendelse og lydbehandling. Den er grundlaget for store sprogmodeller og er standarden i NLP.
Kodeeksempel
import torch.nn as nn
# Opret en Transformer encoder-layer med 512-dim model, 8 hoveder, 2048 FF-størrelse
encoder_layer = nn.TransformerEncoderLayer(d_model=512, nhead=8, dim_feedforward=2048)
transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=6)Eksempel på oprettelse af en Transformer-encoder i PyTorch.
Oprindelse
Termen 'Transformer' blev introduceret i artiklen 'Attention Is All You Need' (2017) af Vaswani et al., hvor de præsenterede en arkitektur uden rekurens eller convolutioner.
Afledte ord
2Kilder
2- Attention Is All You Need (Vaswani et al., 2017)
- BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2019)