maskeret decoderlag

Et lag i en Transformer-decoder der anvender maskering for at forhindre modellen i at se fremtidige tokens under autoregressiv generering.

Kort fortalt

Et maskeret decoderlag sikrer at modellen kun kan kigge på tidligere tokens, når den genererer tekst ét skridt ad gangen.

Kategori: arkitektur
Niveau: øvet
Udtale: maskeret [mɑˈskeˀɐð]

Betydninger

1
Et lag i en Transformer-decoder der udfører selv-opmærksomhed med en kausal maske, så hver position kun kan opmærksomme på sig selv og tidligere positioner.
- I GPT-2 består hvert decoderlag af et maskeret decoderlag efterfulgt af et feedforward-netværk.

Hvornår bruges det

Bruges i Transformer-baserede sprogmodeller som GPT, hvor hvert decoderlag indeholder en maskeret selv-opmærksomhedsmekanisme. Maskeringen er typisk en trekantet matrix, der sætter opmærksomhedsscorer for fremtidige positioner til -uendelig.

Oprindelse

Udtrykket kommer fra at 'maskere' (skjule) fremtidige positioner i opmærksomhedsberegningen, kombineret med 'decoderlag' i Transformer-arkitekturen.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i arkitektur →Tilfældigt opslag →