Large Language Model

En stor sprogmodel er en neural netværksbaseret model, typisk baseret på transformerarkitekturen, trænet på enorme mængder tekstdata til at generere, forstå og manipulere naturligt sprog.

Kort fortalt

En stor sprogmodel er et computerprogram, der har lært at forstå og skrive menneskeligt sprog ved at læse enorme mængder tekst fra internettet.

Kategori
model
Niveau
øvet
Udtale
/lɑːrdʒ ˈlæŋɡwɪdʒ ˈmɒdəl/

Betydninger

1
  1. 1

    En stor sprogmodel (LLM) er en type sprogmodel kendetegnet ved et stort antal parametre (typisk milliarder), trænet på omfattende tekstkorpus, der er i stand til at udføre en bred vifte af sprogopgaver uden opgavespecifik træning.

    • GPT-3 er en af de mest kendte store sprogmodeller med 175 milliarder parametre.Brown et al., 2020
    • Store sprogmodeller har revolutioneret naturlig sprogbehandling ved at muliggøre få-skuds-læring og nul-skuds-overførsel.Brown et al., 2020

Hvornår bruges det

Store sprogmodeller bruges bredt inden for naturlig sprogbehandling til opgaver som tekstgenerering, oversættelse, resumé, spørgsmål-besvarelse og samtalerobotter. De fungerer som fundament for mange moderne AI-applikationer, ofte efter finjustering til specifikke opgaver.

Kodeeksempel

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

input_text = "The future of AI is"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=10)
print(tokenizer.decode(outputs[0]))

Kort eksempel på brug af en lille sprogmodel (GPT-2) via Hugging Face Transformers til at generere tekst.

Oprindelse

Udtrykket 'Large Language Model' (LLM) opstod i slutningen af 2010'erne i takt med, at modelskalaen voksede markant med introduktionen af transformerarkitekturen og modeller som GPT-2 og BERT.

Afledte ord

2

Kilder

3