encoder-decoder-transformer
En encoder-decoder-transformer er en variant af transformer-arkitekturen, der består af en encoder, der behandler inputsekvensen, og en decoder, der genererer outputsekvensen ved hjælp af krydsopmærksomhed over encoderens repræsentationer.
Kort fortalt
En encoder-decoder-transformer er en type neurale netværk, der læser en inputtekst og derefter skriver en outputtekst, som når en maskine oversætter en sætning fra dansk til engelsk.
- Kategori
- arkitektur
- Niveau
- øvet
Betydninger
1- 1
En neural netværksarkitektur med to hovedkomponenter: en encoder, der kortlægger en inputsekvens til en kontinuerlig repræsentation, og en decoder, der genererer en outputsekvens ved at anvende krydsopmærksomhed på denne repræsentation samt autoregressiv sekvensgenerering.
- Den originale transformer-model, beskrevet i 'Attention Is All You Need', er en encoder-decoder-transformer designet til maskinoversættelse. — Vaswani et al., 2017
- T5-modellen anvender en encoder-decoder-transformer til at håndtere en række tekst-til-tekst-opgaver. — Raffel et al., 2020
Hvornår bruges det
Encoder-decoder-transformere bruges primært til sekvens-til-sekvens-opgaver som maskinoversættelse, tekstopsummering og spørgsmålbesvarelse, hvor input- og outputsekvenserne har forskellig længde og struktur. Arkitekturen er grundlaget for mange tidlige store sprogmodeller som T5 og BART.
Kodeeksempel
import torch.nn as nn
# Define encoder-decoder transformer
model = nn.Transformer(
d_model=512,
nhead=8,
num_encoder_layers=6,
num_decoder_layers=6,
dim_feedforward=2048
)
# Example input (batch, seq_len)
src = torch.randint(0, 1000, (10, 20)) # source tokens
tgt = torch.randint(0, 1000, (10, 30)) # target tokens
# Forward pass
output = model(src, tgt)Oprettelse af en encoder-decoder-transformer med PyTorchs indbyggede nn.Transformer, som direkte implementerer arkitekturen.
Oprindelse
Termen stammer fra transformer-arkitekturen introduceret i Vaswani et al. (2017), som beskriver en model med en encoder og en decoder, hver opbygget af stakke af selvopmærksomhed og fuldt forbundne lag.
Afledte ord
3Kilder
2- Attention Is All You Need (Vaswani et al., 2017)
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (Raffel et al., 2020)