kausal sprogmodellering

Kausal sprogmodellering er en træningsteknik for sprogmodeller, hvor målet er at forudsige næste token givet alle foregående tokens i en strengt venstre-mod-højre retning.

Kort fortalt

Modellen lærer at forudsige det næste ord i en sætning ved kun at kigge på de ord, der kommer før, ligesom når man læser en tekst fra venstre mod højre.

Kategori: teknik
Niveau: øvet

Betydninger

1
En træningsmetode for sprogmodeller, hvor sandsynligheden for en sekvens faktoriseres som produktet af betingede sandsynligheder for hvert token givet alle tidligere tokens, og hvor opmærksomhedsmekanismen er begrænset til kun at se tidligere positioner via en kausal maske.
- GPT-3 blev trænet ved hjælp af kausal sprogmodellering på en stor tekstkorpus. — Brown et al., 2020
- I kausal sprogmodellering anvendes en trekantet opmærksomhedsmaske for at forhindre, at modellen ser fremtidige tokens.

Hvornår bruges det

Kausal sprogmodellering anvendes primært til at træne autoregressive sprogmodeller som GPT-serien. Det bruges i opgaver som tekstgenerering, hvor modellen producerer teksten et token ad gangen, og i zero-shot-læring, hvor modellen forudsiger fortsættelser baseret på en prompt.

Formel

L(θ) = -∑_{t=1}^{T} log P(x_t | x_{<t}; θ)

Kodeeksempel

import torch
import torch.nn.functional as F

def causal_mask(seq_len):
    mask = torch.triu(torch.ones(seq_len, seq_len), diagonal=1).bool()
    return ~mask

# Example: sequence length 4
print(causal_mask(4))

Opretter en boolsk kausal maske, der tillader opmærksomhed på nuværende og tidligere positioner. 'True' betyder, at opmærksomhed er tilladt.

Oprindelse

Termen 'kausal' refererer til den årsag-virkning-retning, som modellen anvender: kun fortidige tokens påvirker forudsigelsen af det næste token. Sprogmodellering henviser til opgaven med at modellere sandsynlighedsfordelingen over sekvenser af tokens.

Afledte ord

kausal maskering autoregressiv sprogmodellering

Kilder

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →