maskeret decoderlag
Et lag i en Transformer-decoder der anvender maskering for at forhindre modellen i at se fremtidige tokens under autoregressiv generering.
Kort fortalt
Et maskeret decoderlag sikrer at modellen kun kan kigge på tidligere tokens, når den genererer tekst ét skridt ad gangen.
- Kategori
- arkitektur
- Niveau
- øvet
- Udtale
- maskeret [mɑˈskeˀɐð]
Betydninger
1- 1
Et lag i en Transformer-decoder der udfører selv-opmærksomhed med en kausal maske, så hver position kun kan opmærksomme på sig selv og tidligere positioner.
- I GPT-2 består hvert decoderlag af et maskeret decoderlag efterfulgt af et feedforward-netværk.
Hvornår bruges det
Bruges i Transformer-baserede sprogmodeller som GPT, hvor hvert decoderlag indeholder en maskeret selv-opmærksomhedsmekanisme. Maskeringen er typisk en trekantet matrix, der sætter opmærksomhedsscorer for fremtidige positioner til -uendelig.
Oprindelse
Udtrykket kommer fra at 'maskere' (skjule) fremtidige positioner i opmærksomhedsberegningen, kombineret med 'decoderlag' i Transformer-arkitekturen.