kausal sprogmodellering
Kausal sprogmodellering er en træningsteknik for sprogmodeller, hvor målet er at forudsige næste token givet alle foregående tokens i en strengt venstre-mod-højre retning.
Kort fortalt
Modellen lærer at forudsige det næste ord i en sætning ved kun at kigge på de ord, der kommer før, ligesom når man læser en tekst fra venstre mod højre.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En træningsmetode for sprogmodeller, hvor sandsynligheden for en sekvens faktoriseres som produktet af betingede sandsynligheder for hvert token givet alle tidligere tokens, og hvor opmærksomhedsmekanismen er begrænset til kun at se tidligere positioner via en kausal maske.
- GPT-3 blev trænet ved hjælp af kausal sprogmodellering på en stor tekstkorpus. — Brown et al., 2020
- I kausal sprogmodellering anvendes en trekantet opmærksomhedsmaske for at forhindre, at modellen ser fremtidige tokens.
Hvornår bruges det
Kausal sprogmodellering anvendes primært til at træne autoregressive sprogmodeller som GPT-serien. Det bruges i opgaver som tekstgenerering, hvor modellen producerer teksten et token ad gangen, og i zero-shot-læring, hvor modellen forudsiger fortsættelser baseret på en prompt.
Formel
L(θ) = -∑_{t=1}^{T} log P(x_t | x_{<t}; θ)Kodeeksempel
import torch
import torch.nn.functional as F
def causal_mask(seq_len):
mask = torch.triu(torch.ones(seq_len, seq_len), diagonal=1).bool()
return ~mask
# Example: sequence length 4
print(causal_mask(4))Opretter en boolsk kausal maske, der tillader opmærksomhed på nuværende og tidligere positioner. 'True' betyder, at opmærksomhed er tilladt.
Oprindelse
Termen 'kausal' refererer til den årsag-virkning-retning, som modellen anvender: kun fortidige tokens påvirker forudsigelsen af det næste token. Sprogmodellering henviser til opgaven med at modellere sandsynlighedsfordelingen over sekvenser af tokens.