Decoder-only Transformer
En decoder-only transformer er en transformerarkitektur, der kun består af decoderblokke og anvendes til autoregressiv generering af sekvenser uden en separat encoder.
Kort fortalt
En decoder-only transformer er en type AI-model, der genererer tekst trin for trin ved at forudsige det næste ord baseret på tidligere ord.
- Kategori
- arkitektur
- Niveau
- øvet
Betydninger
1- 1
En transformerarkitektur udelukkende sammensat af decoderblokke, typisk anvendt til autoregressiv generering af sekvenser som tekst.
- GPT-3 er en prominent decoder-only transformer sprogmodel udviklet af OpenAI.
- Decoder-only transformere anvender kausal opmærksomhed for at sikre, at hvert token kun kan se tidligere tokens.
Hvornår bruges det
Decoder-only transformere danner grundlag for sprogmodeller som GPT-serien, hvor de bruges til tekstgenerering, oversættelse og andre sekvensopgaver. De trænes med kausal maskering for at forhindre fremadrettet informationsflow.
Kodeeksempel
from transformers import GPT2LMHeadModel, GPT2Tokenizer
model = GPT2LMHeadModel.from_pretrained('gpt2')
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
input_text = "Artificial intelligence will"
inputs = tokenizer(input_text, return_tensors='pt')
outputs = model.generate(**inputs, max_length=20)
print(tokenizer.decode(outputs[0]))Eksempel på brug af en decoder-only transformer (GPT-2) til tekstgenerering med Hugging Face Transformers.
Oprindelse
Begrebet stammer fra transformerarkitekturen introduceret af Vaswani et al. (2017), hvor 'decoder-only' henviser til fraværet af en encoder-del.
Afledte ord
1Kilder
2- Attention Is All You Need (Vaswani et al., 2017)
- Improving Language Understanding by Generative Pre-Training (Radford et al., 2018)