Large Language Model
En stor sprogmodel er en neural netværksbaseret model, typisk baseret på transformerarkitekturen, trænet på enorme mængder tekstdata til at generere, forstå og manipulere naturligt sprog.
Kort fortalt
En stor sprogmodel er et computerprogram, der har lært at forstå og skrive menneskeligt sprog ved at læse enorme mængder tekst fra internettet.
- Kategori
- model
- Niveau
- øvet
- Udtale
- /lɑːrdʒ ˈlæŋɡwɪdʒ ˈmɒdəl/
Betydninger
1- 1
En stor sprogmodel (LLM) er en type sprogmodel kendetegnet ved et stort antal parametre (typisk milliarder), trænet på omfattende tekstkorpus, der er i stand til at udføre en bred vifte af sprogopgaver uden opgavespecifik træning.
- GPT-3 er en af de mest kendte store sprogmodeller med 175 milliarder parametre. — Brown et al., 2020
- Store sprogmodeller har revolutioneret naturlig sprogbehandling ved at muliggøre få-skuds-læring og nul-skuds-overførsel. — Brown et al., 2020
Hvornår bruges det
Store sprogmodeller bruges bredt inden for naturlig sprogbehandling til opgaver som tekstgenerering, oversættelse, resumé, spørgsmål-besvarelse og samtalerobotter. De fungerer som fundament for mange moderne AI-applikationer, ofte efter finjustering til specifikke opgaver.
Kodeeksempel
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
input_text = "The future of AI is"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=10)
print(tokenizer.decode(outputs[0]))Kort eksempel på brug af en lille sprogmodel (GPT-2) via Hugging Face Transformers til at generere tekst.
Oprindelse
Udtrykket 'Large Language Model' (LLM) opstod i slutningen af 2010'erne i takt med, at modelskalaen voksede markant med introduktionen af transformerarkitekturen og modeller som GPT-2 og BERT.