Transformer-decoder

Den del af Transformer-arkitekturen, der ansvarlig for autoregressiv generering af outputsekvenser ved at anvende maskeret selvopmærksomhed og krydsopmærksomhed.

Kort fortalt

Transformer-dekoderen er den del af en Transformer-model, der genererer tekst ét ord ad gangen ved at se på tidligere genererede ord og eventuelt input fra en encoder.

Kategori
arkitektur
Niveau
øvet

Betydninger

1
  1. 1

    En neural netværkskomponent, der består af stakke af opmærksomhedslag med maskeret selvopmærksomhed og positionsvis feed-forward-netværk, designet til at generere outputsekvenser sekventielt.

    • I GPT-3 består modellen udelukkende af en Transformer-decoder.OpenAI, 2020
    • Den originale Transformer anvender en encoder-decoder-struktur, hvor dekoderen producerer oversættelsen.Vaswani et al., 2017

Hvornår bruges det

Transformer-dekoderen anvendes primært i generative sprogmodeller som GPT, hvor den alene udgør hele modellen. Den bruges også i encoder-decoder-modeller som den oprindelige Transformer til maskinoversættelse.

Kodeeksempel

import torch.nn as nn
decoder_layer = nn.TransformerDecoderLayer(d_model=512, nhead=8)
decoder = nn.TransformerDecoder(decoder_layer, num_layers=6)

Oprettelse af en Transformer-decoder med 6 lag i PyTorch.

Oprindelse

Termen opstod med introduktionen af Transformer-arkitekturen i 2017, hvor dekoderen blev beskrevet som den sekvensgenererende del.

Afledte ord

1

Kilder

3
  • Attention Is All You Need (Vaswani et al., 2017)
  • Improving Language Understanding by Generative Pre-Training (Radford et al., 2018)
  • Language Models are Few-Shot Learners (Brown et al., 2020)