encoder-decoder-transformer

En encoder-decoder-transformer er en variant af transformer-arkitekturen, der består af en encoder, der behandler inputsekvensen, og en decoder, der genererer outputsekvensen ved hjælp af krydsopmærksomhed over encoderens repræsentationer.

Kort fortalt

En encoder-decoder-transformer er en type neurale netværk, der læser en inputtekst og derefter skriver en outputtekst, som når en maskine oversætter en sætning fra dansk til engelsk.

Kategori
arkitektur
Niveau
øvet

Betydninger

1
  1. 1

    En neural netværksarkitektur med to hovedkomponenter: en encoder, der kortlægger en inputsekvens til en kontinuerlig repræsentation, og en decoder, der genererer en outputsekvens ved at anvende krydsopmærksomhed på denne repræsentation samt autoregressiv sekvensgenerering.

    • Den originale transformer-model, beskrevet i 'Attention Is All You Need', er en encoder-decoder-transformer designet til maskinoversættelse.Vaswani et al., 2017
    • T5-modellen anvender en encoder-decoder-transformer til at håndtere en række tekst-til-tekst-opgaver.Raffel et al., 2020

Hvornår bruges det

Encoder-decoder-transformere bruges primært til sekvens-til-sekvens-opgaver som maskinoversættelse, tekstopsummering og spørgsmålbesvarelse, hvor input- og outputsekvenserne har forskellig længde og struktur. Arkitekturen er grundlaget for mange tidlige store sprogmodeller som T5 og BART.

Kodeeksempel

import torch.nn as nn

# Define encoder-decoder transformer
model = nn.Transformer(
    d_model=512,
    nhead=8,
    num_encoder_layers=6,
    num_decoder_layers=6,
    dim_feedforward=2048
)

# Example input (batch, seq_len)
src = torch.randint(0, 1000, (10, 20))  # source tokens
tgt = torch.randint(0, 1000, (10, 30))  # target tokens

# Forward pass
output = model(src, tgt)

Oprettelse af en encoder-decoder-transformer med PyTorchs indbyggede nn.Transformer, som direkte implementerer arkitekturen.

Oprindelse

Termen stammer fra transformer-arkitekturen introduceret i Vaswani et al. (2017), som beskriver en model med en encoder og en decoder, hver opbygget af stakke af selvopmærksomhed og fuldt forbundne lag.

Afledte ord

3

Kilder

2
  • Attention Is All You Need (Vaswani et al., 2017)
  • Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (Raffel et al., 2020)