decoder-only model

En transformer-model udelukkende bestående af dekoderblokke, typisk brugt til autoregressiv tekstgenerering.

Kort fortalt

En model der genererer tekst ved at forudsige næste token baseret på tidligere tokens, uden en separat enkoder.

Kategori: arkitektur
Niveau: øvet

Betydninger

1
En transformerarkitektur der består af en stak af dekoderblokke, hver med selv-opmærksomhed og feed-forward lag, designet til autoregressiv generering af sekvenser.
- GPT-3 er et eksempel på en decoder-only model med 175 milliarder parametre. — Brown et al., 2020
- Decoder-only modeller maskerer fremtidige tokens for at forhindre snyd under træning. — Vaswani et al., 2017

Hvornår bruges det

Decoder-only modeller anvendes primært til sproggenerering, som i GPT-serien, hvor de producerer sammenhængende tekst ved at bygge på tidligere output. De er også grundlaget for mange moderne chat-assistenter.

Oprindelse

Betegnelsen opstod i forbindelse med transformer-arkitekturen (Vaswani et al., 2017) for at skelne modeller der kun bruger dekorderen, i modsætning til enkoder-dekoder eller kun enkoder.

Kilder

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i arkitektur →Tilfældigt opslag →