decoder-only model

En transformer-model udelukkende bestående af dekoderblokke, typisk brugt til autoregressiv tekstgenerering.

Kort fortalt

En model der genererer tekst ved at forudsige næste token baseret på tidligere tokens, uden en separat enkoder.

Kategori
arkitektur
Niveau
øvet

Betydninger

1
  1. 1

    En transformerarkitektur der består af en stak af dekoderblokke, hver med selv-opmærksomhed og feed-forward lag, designet til autoregressiv generering af sekvenser.

    • GPT-3 er et eksempel på en decoder-only model med 175 milliarder parametre.Brown et al., 2020
    • Decoder-only modeller maskerer fremtidige tokens for at forhindre snyd under træning.Vaswani et al., 2017

Hvornår bruges det

Decoder-only modeller anvendes primært til sproggenerering, som i GPT-serien, hvor de producerer sammenhængende tekst ved at bygge på tidligere output. De er også grundlaget for mange moderne chat-assistenter.

Oprindelse

Betegnelsen opstod i forbindelse med transformer-arkitekturen (Vaswani et al., 2017) for at skelne modeller der kun bruger dekorderen, i modsætning til enkoder-dekoder eller kun enkoder.

Kilder

2