Transformer-decoder
Den del af Transformer-arkitekturen, der ansvarlig for autoregressiv generering af outputsekvenser ved at anvende maskeret selvopmærksomhed og krydsopmærksomhed.
Kort fortalt
Transformer-dekoderen er den del af en Transformer-model, der genererer tekst ét ord ad gangen ved at se på tidligere genererede ord og eventuelt input fra en encoder.
- Kategori
- arkitektur
- Niveau
- øvet
Betydninger
1- 1
En neural netværkskomponent, der består af stakke af opmærksomhedslag med maskeret selvopmærksomhed og positionsvis feed-forward-netværk, designet til at generere outputsekvenser sekventielt.
- I GPT-3 består modellen udelukkende af en Transformer-decoder. — OpenAI, 2020
- Den originale Transformer anvender en encoder-decoder-struktur, hvor dekoderen producerer oversættelsen. — Vaswani et al., 2017
Hvornår bruges det
Transformer-dekoderen anvendes primært i generative sprogmodeller som GPT, hvor den alene udgør hele modellen. Den bruges også i encoder-decoder-modeller som den oprindelige Transformer til maskinoversættelse.
Kodeeksempel
import torch.nn as nn
decoder_layer = nn.TransformerDecoderLayer(d_model=512, nhead=8)
decoder = nn.TransformerDecoder(decoder_layer, num_layers=6)Oprettelse af en Transformer-decoder med 6 lag i PyTorch.
Oprindelse
Termen opstod med introduktionen af Transformer-arkitekturen i 2017, hvor dekoderen blev beskrevet som den sekvensgenererende del.
Afledte ord
1Kilder
3- Attention Is All You Need (Vaswani et al., 2017)
- Improving Language Understanding by Generative Pre-Training (Radford et al., 2018)
- Language Models are Few-Shot Learners (Brown et al., 2020)