decoder-only
En transformer-model, som kun består af decoder-lag med kausal maskering og bruges til autoregressiv tekstgenerering.
Kort fortalt
En decoder-only-model er en type transformer, der genererer tekst ét token ad gangen ved kun at bruge decoder-delen (f.eks. GPT).
- Kategori
- arkitektur
- Niveau
- øvet
- Udtale
- diːˈkoʊdər ˈoʊnli
Betydninger
1- 1
En transformer-arkitektur, der udelukkende benytter decoder-stakken med kausal opmærksomhed, typisk til autoregressiv generering.
- GPT-3 er en decoder-only-model med 175 milliarder parametre. — Brown et al., 2020
- Decoder-only-modeller undgår encoderens bidirektionelle kontekst for at muliggøre sekventiel generering. — Forskningsartikel, 2023
Hvornår bruges det
Decoder-only-modeller anvendes primært til generative opgaver som tekstkomplettering, samtale og kodegenerering. De er grundlaget for sprogmodeller som GPT-serien, hvor de trænes med næste-token-forudsigelse.
Kodeeksempel
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("gpt2")
tokenizer = AutoTokenizer.from_pretrained("gpt2")
inputs = tokenizer("The meaning of life is", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=10)
print(tokenizer.decode(outputs[0]))Indlæsning af en decoder-only-model (GPT-2) med Hugging Face Transformers til tekstgenerering.
Oprindelse
Termen opstod for at skelne mellem transformer-arkitekturer: encoder-decoder (f.eks. original Transformer), encoder-only (f.eks. BERT) og decoder-only (f.eks. GPT).
Afledte ord
2Kilder
2- Attention Is All You Need (Vaswani et al., 2017)
- Language Models are Few-Shot Learners (Brown et al., 2020)