language model
En sprogmodel er en statistisk eller neural model, der tillægger en sandsynlighed til en sekvens af ord eller tokens.
Kort fortalt
En sprogmodell lærer, hvilke ord der typisk kommer efter hinanden, så den kan forudsige næste ord i en sætning.
- Kategori
- model
- Niveau
- begynder
Betydninger
1- 1
En sandsynlighedsfordeling over sekvenser af tokens (ord eller underord), der muliggør forudsigelse af næste token eller vurdering af sætningers sandsynlighed.
- En n-gram-sprogmodel estimerer sandsynligheden for et ord givet de foregående n-1 ord. — Jelinek, 1997
- Transformer-baserede sprogmodeller som GPT-3 kan generere sammenhængende tekst over lange afstande. — Brown et al., 2020
Hvornår bruges det
Sprogmodeller bruges i tekstgenerering, maskinoversættelse, stavekontrol og talegenkendelse. De er kernen i moderne chatbots og AI-assistenter.
Formel
P(w_1, w_2, ..., w_m) = ∏_{i=1}^m P(w_i | w_1, ..., w_{i-1})Kodeeksempel
from transformers import pipeline
generator = pipeline('text-generation', model='gpt2')
output = generator("Once upon a time", max_length=30, num_return_sequences=1)
print(output[0]['generated_text'])Eksempel på brug af en fortrænet sprogmodel (GPT-2) til tekstgenerering.
Oprindelse
Udtrykket 'language model' blev introduceret i statistisk naturlig sprogbehandling i 1980'erne og refererede oprindeligt til n-gram-modeller. Med fremkomsten af neurale netværk fik begrebet en bredere betydning.
Afledte ord
2Kilder
3- Jelinek, Statistical Methods for Speech Recognition (1997)
- Bengio et al., A Neural Probabilistic Language Model (2003)
- Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers (2019)