Transformer-baseret sprogmodel
En transformer-baseret sprogmodel er en neural netværksmodel, der anvender Transformer-arkitekturen til at forudsige eller generere sprog ved at lære mønstre fra store tekstmængder.
Kort fortalt
Kort fortalt: en sprogmodel bygget på Transformer-teknologien, som gør den i stand til at forstå sammenhænge i tekst uden at læse den fra venstre mod højre.
- Kategori
- model
- Niveau
- øvet
Betydninger
1- 1
En sprogmodel der bygger på Transformer-arkitekturen, karakteriseret ved brug af selvopmærksomhed (self-attention) til at modellere sproglige afhængigheder uden sekventiel behandling.
- GPT-3 er en af de største transformer-baserede sprogmodeller med 175 milliarder parametre. — Language Models are Few-Shot Learners, 2020
- BERT, en transformer-baseret sprogmodel, revolutionerede forståelsen af kontekst i NLP. — BERT: Pre-training of Deep Bidirectional Transformers, 2019
Hvornår bruges det
Transformer-baserede sprogmodeller anvendes bredt til opgaver som tekstgenerering, maskinoversættelse, sentimentanalyse og spørgsmålssvar. De trænes typisk på enorme tekstkorpus og kan finjusteres til specifikke opgaver.
Kodeeksempel
from transformers import pipeline
generator = pipeline('text-generation', model='gpt2')
output = generator('Kunstig intelligens er', max_length=50)
print(output)Eksempel på brug af en transformer-baseret sprogmodel (GPT-2) via Hugging Face Transformers til tekstgenerering.
Oprindelse
Termen kombinerer 'Transformer' (arkitekturen introduceret i Vaswani et al., 2017) og 'sprogmodel' (en statistisk model for sprog).
Afledte ord
4Kilder
3- Attention Is All You Need (2017)
- Language Models are Few-Shot Learners (2020)
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019)