Decoder-only Transformer

En decoder-only transformer er en transformerarkitektur, der kun består af decoderblokke og anvendes til autoregressiv generering af sekvenser uden en separat encoder.

Kort fortalt

En decoder-only transformer er en type AI-model, der genererer tekst trin for trin ved at forudsige det næste ord baseret på tidligere ord.

Kategori
arkitektur
Niveau
øvet

Betydninger

1
  1. 1

    En transformerarkitektur udelukkende sammensat af decoderblokke, typisk anvendt til autoregressiv generering af sekvenser som tekst.

    • GPT-3 er en prominent decoder-only transformer sprogmodel udviklet af OpenAI.
    • Decoder-only transformere anvender kausal opmærksomhed for at sikre, at hvert token kun kan se tidligere tokens.

Hvornår bruges det

Decoder-only transformere danner grundlag for sprogmodeller som GPT-serien, hvor de bruges til tekstgenerering, oversættelse og andre sekvensopgaver. De trænes med kausal maskering for at forhindre fremadrettet informationsflow.

Kodeeksempel

from transformers import GPT2LMHeadModel, GPT2Tokenizer

model = GPT2LMHeadModel.from_pretrained('gpt2')
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

input_text = "Artificial intelligence will"
inputs = tokenizer(input_text, return_tensors='pt')
outputs = model.generate(**inputs, max_length=20)
print(tokenizer.decode(outputs[0]))

Eksempel på brug af en decoder-only transformer (GPT-2) til tekstgenerering med Hugging Face Transformers.

Oprindelse

Begrebet stammer fra transformerarkitekturen introduceret af Vaswani et al. (2017), hvor 'decoder-only' henviser til fraværet af en encoder-del.

Afledte ord

1

Kilder

2
  • Attention Is All You Need (Vaswani et al., 2017)
  • Improving Language Understanding by Generative Pre-Training (Radford et al., 2018)