Transformer-decoder

Den del af Transformer-arkitekturen, der ansvarlig for autoregressiv generering af outputsekvenser ved at anvende maskeret selvopmærksomhed og krydsopmærksomhed.

Kort fortalt

Transformer-dekoderen er den del af en Transformer-model, der genererer tekst ét ord ad gangen ved at se på tidligere genererede ord og eventuelt input fra en encoder.

Kategori: arkitektur
Niveau: øvet

Betydninger

1
En neural netværkskomponent, der består af stakke af opmærksomhedslag med maskeret selvopmærksomhed og positionsvis feed-forward-netværk, designet til at generere outputsekvenser sekventielt.
- I GPT-3 består modellen udelukkende af en Transformer-decoder. — OpenAI, 2020
- Den originale Transformer anvender en encoder-decoder-struktur, hvor dekoderen producerer oversættelsen. — Vaswani et al., 2017

Hvornår bruges det

Transformer-dekoderen anvendes primært i generative sprogmodeller som GPT, hvor den alene udgør hele modellen. Den bruges også i encoder-decoder-modeller som den oprindelige Transformer til maskinoversættelse.

Kodeeksempel

import torch.nn as nn
decoder_layer = nn.TransformerDecoderLayer(d_model=512, nhead=8)
decoder = nn.TransformerDecoder(decoder_layer, num_layers=6)

Oprettelse af en Transformer-decoder med 6 lag i PyTorch.

Oprindelse

Termen opstod med introduktionen af Transformer-arkitekturen i 2017, hvor dekoderen blev beskrevet som den sekvensgenererende del.

Afledte ord

decoder-only

Kilder

Attention Is All You Need (Vaswani et al., 2017)
Improving Language Understanding by Generative Pre-Training (Radford et al., 2018)
Language Models are Few-Shot Learners (Brown et al., 2020)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i arkitektur →Tilfældigt opslag →