decoder-only

En transformer-model, som kun består af decoder-lag med kausal maskering og bruges til autoregressiv tekstgenerering.

Kort fortalt

En decoder-only-model er en type transformer, der genererer tekst ét token ad gangen ved kun at bruge decoder-delen (f.eks. GPT).

Kategori
arkitektur
Niveau
øvet
Udtale
diːˈkoʊdər ˈoʊnli

Betydninger

1
  1. 1

    En transformer-arkitektur, der udelukkende benytter decoder-stakken med kausal opmærksomhed, typisk til autoregressiv generering.

    • GPT-3 er en decoder-only-model med 175 milliarder parametre.Brown et al., 2020
    • Decoder-only-modeller undgår encoderens bidirektionelle kontekst for at muliggøre sekventiel generering.Forskningsartikel, 2023

Hvornår bruges det

Decoder-only-modeller anvendes primært til generative opgaver som tekstkomplettering, samtale og kodegenerering. De er grundlaget for sprogmodeller som GPT-serien, hvor de trænes med næste-token-forudsigelse.

Kodeeksempel

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("gpt2")
tokenizer = AutoTokenizer.from_pretrained("gpt2")
inputs = tokenizer("The meaning of life is", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=10)
print(tokenizer.decode(outputs[0]))

Indlæsning af en decoder-only-model (GPT-2) med Hugging Face Transformers til tekstgenerering.

Oprindelse

Termen opstod for at skelne mellem transformer-arkitekturer: encoder-decoder (f.eks. original Transformer), encoder-only (f.eks. BERT) og decoder-only (f.eks. GPT).

Afledte ord

2

Kilder

2
  • Attention Is All You Need (Vaswani et al., 2017)
  • Language Models are Few-Shot Learners (Brown et al., 2020)