decoder-only

En transformer-model, som kun består af decoder-lag med kausal maskering og bruges til autoregressiv tekstgenerering.

Kort fortalt

En decoder-only-model er en type transformer, der genererer tekst ét token ad gangen ved kun at bruge decoder-delen (f.eks. GPT).

Kategori: arkitektur
Niveau: øvet
Udtale: diːˈkoʊdər ˈoʊnli

Betydninger

1
En transformer-arkitektur, der udelukkende benytter decoder-stakken med kausal opmærksomhed, typisk til autoregressiv generering.
- GPT-3 er en decoder-only-model med 175 milliarder parametre. — Brown et al., 2020
- Decoder-only-modeller undgår encoderens bidirektionelle kontekst for at muliggøre sekventiel generering. — Forskningsartikel, 2023

Hvornår bruges det

Decoder-only-modeller anvendes primært til generative opgaver som tekstkomplettering, samtale og kodegenerering. De er grundlaget for sprogmodeller som GPT-serien, hvor de trænes med næste-token-forudsigelse.

Kodeeksempel

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("gpt2")
tokenizer = AutoTokenizer.from_pretrained("gpt2")
inputs = tokenizer("The meaning of life is", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=10)
print(tokenizer.decode(outputs[0]))

Indlæsning af en decoder-only-model (GPT-2) med Hugging Face Transformers til tekstgenerering.

Oprindelse

Termen opstod for at skelne mellem transformer-arkitekturer: encoder-decoder (f.eks. original Transformer), encoder-only (f.eks. BERT) og decoder-only (f.eks. GPT).

Afledte ord

decoder-only arkitektur decoder-only sprogmodel

Kilder

Attention Is All You Need (Vaswani et al., 2017)
Language Models are Few-Shot Learners (Brown et al., 2020)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i arkitektur →Tilfældigt opslag →