Transformer-arkitektur

Transformer-arkitekturen er en neural netværksarkitektur, der udelukkende baserer sig på opmærksomhedsmekanismer og har revolutionerende betydning for behandling af sekvensdata.

Kort fortalt

Transformer-arkitekturen er en måde at bygge neurale netværk på, der kan forstå sammenhænge i tekst ved at se på alle ord på én gang i stedet for én efter én.

Kategori
arkitektur
Niveau
øvet

Betydninger

1
  1. 1

    En neural netværksarkitektur, der er baseret på en multi-head self-attention-mekanisme og positionelle encodinger, og som består af en encoder og en decoder (eller kun encoder/decoder afhængigt af varianten).

    • Transformer-arkitekturen har muliggjort parallel træning af store mængder data.Vaswani et al., 2017
    • I BERT bruges kun encoder-delen af Transformer-arkitekturen.Devlin et al., 2019

Hvornår bruges det

Transformer-arkitekturen anvendes i næsten alle moderne sprogmodeller som GPT, BERT og T5 samt i andre domæner som billedgenkendelse og lydbehandling. Den er grundlaget for store sprogmodeller og er standarden i NLP.

Kodeeksempel

import torch.nn as nn
# Opret en Transformer encoder-layer med 512-dim model, 8 hoveder, 2048 FF-størrelse
encoder_layer = nn.TransformerEncoderLayer(d_model=512, nhead=8, dim_feedforward=2048)
transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=6)

Eksempel på oprettelse af en Transformer-encoder i PyTorch.

Oprindelse

Termen 'Transformer' blev introduceret i artiklen 'Attention Is All You Need' (2017) af Vaswani et al., hvor de præsenterede en arkitektur uden rekurens eller convolutioner.

Afledte ord

2

Kilder

2
  • Attention Is All You Need (Vaswani et al., 2017)
  • BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2019)