language model

En sprogmodel er en statistisk eller neural model, der tillægger en sandsynlighed til en sekvens af ord eller tokens.

Kort fortalt

En sprogmodell lærer, hvilke ord der typisk kommer efter hinanden, så den kan forudsige næste ord i en sætning.

Kategori
model
Niveau
begynder

Betydninger

1
  1. 1

    En sandsynlighedsfordeling over sekvenser af tokens (ord eller underord), der muliggør forudsigelse af næste token eller vurdering af sætningers sandsynlighed.

    • En n-gram-sprogmodel estimerer sandsynligheden for et ord givet de foregående n-1 ord.Jelinek, 1997
    • Transformer-baserede sprogmodeller som GPT-3 kan generere sammenhængende tekst over lange afstande.Brown et al., 2020

Hvornår bruges det

Sprogmodeller bruges i tekstgenerering, maskinoversættelse, stavekontrol og talegenkendelse. De er kernen i moderne chatbots og AI-assistenter.

Formel

P(w_1, w_2, ..., w_m) = ∏_{i=1}^m P(w_i | w_1, ..., w_{i-1})

Kodeeksempel

from transformers import pipeline

generator = pipeline('text-generation', model='gpt2')
output = generator("Once upon a time", max_length=30, num_return_sequences=1)
print(output[0]['generated_text'])

Eksempel på brug af en fortrænet sprogmodel (GPT-2) til tekstgenerering.

Oprindelse

Udtrykket 'language model' blev introduceret i statistisk naturlig sprogbehandling i 1980'erne og refererede oprindeligt til n-gram-modeller. Med fremkomsten af neurale netværk fik begrebet en bredere betydning.

Afledte ord

2

Kilder

3
  • Jelinek, Statistical Methods for Speech Recognition (1997)
  • Bengio et al., A Neural Probabilistic Language Model (2003)
  • Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers (2019)