decoder-only model
En transformer-model udelukkende bestående af dekoderblokke, typisk brugt til autoregressiv tekstgenerering.
Kort fortalt
En model der genererer tekst ved at forudsige næste token baseret på tidligere tokens, uden en separat enkoder.
- Kategori
- arkitektur
- Niveau
- øvet
Betydninger
1- 1
En transformerarkitektur der består af en stak af dekoderblokke, hver med selv-opmærksomhed og feed-forward lag, designet til autoregressiv generering af sekvenser.
- GPT-3 er et eksempel på en decoder-only model med 175 milliarder parametre. — Brown et al., 2020
- Decoder-only modeller maskerer fremtidige tokens for at forhindre snyd under træning. — Vaswani et al., 2017
Hvornår bruges det
Decoder-only modeller anvendes primært til sproggenerering, som i GPT-serien, hvor de producerer sammenhængende tekst ved at bygge på tidligere output. De er også grundlaget for mange moderne chat-assistenter.
Oprindelse
Betegnelsen opstod i forbindelse med transformer-arkitekturen (Vaswani et al., 2017) for at skelne modeller der kun bruger dekorderen, i modsætning til enkoder-dekoder eller kun enkoder.