maskeret decoderlag

Et lag i en Transformer-decoder der anvender maskering for at forhindre modellen i at se fremtidige tokens under autoregressiv generering.

Kort fortalt

Et maskeret decoderlag sikrer at modellen kun kan kigge på tidligere tokens, når den genererer tekst ét skridt ad gangen.

Kategori
arkitektur
Niveau
øvet
Udtale
maskeret [mɑˈskeˀɐð]

Betydninger

1
  1. 1

    Et lag i en Transformer-decoder der udfører selv-opmærksomhed med en kausal maske, så hver position kun kan opmærksomme på sig selv og tidligere positioner.

    • I GPT-2 består hvert decoderlag af et maskeret decoderlag efterfulgt af et feedforward-netværk.

Hvornår bruges det

Bruges i Transformer-baserede sprogmodeller som GPT, hvor hvert decoderlag indeholder en maskeret selv-opmærksomhedsmekanisme. Maskeringen er typisk en trekantet matrix, der sætter opmærksomhedsscorer for fremtidige positioner til -uendelig.

Oprindelse

Udtrykket kommer fra at 'maskere' (skjule) fremtidige positioner i opmærksomhedsberegningen, kombineret med 'decoderlag' i Transformer-arkitekturen.