Transformer-baseret sprogmodel

En transformer-baseret sprogmodel er en neural netværksmodel, der anvender Transformer-arkitekturen til at forudsige eller generere sprog ved at lære mønstre fra store tekstmængder.

Kort fortalt

Kort fortalt: en sprogmodel bygget på Transformer-teknologien, som gør den i stand til at forstå sammenhænge i tekst uden at læse den fra venstre mod højre.

Kategori: model
Niveau: øvet

Betydninger

1
En sprogmodel der bygger på Transformer-arkitekturen, karakteriseret ved brug af selvopmærksomhed (self-attention) til at modellere sproglige afhængigheder uden sekventiel behandling.
- GPT-3 er en af de største transformer-baserede sprogmodeller med 175 milliarder parametre. — Language Models are Few-Shot Learners, 2020
- BERT, en transformer-baseret sprogmodel, revolutionerede forståelsen af kontekst i NLP. — BERT: Pre-training of Deep Bidirectional Transformers, 2019

Hvornår bruges det

Transformer-baserede sprogmodeller anvendes bredt til opgaver som tekstgenerering, maskinoversættelse, sentimentanalyse og spørgsmålssvar. De trænes typisk på enorme tekstkorpus og kan finjusteres til specifikke opgaver.

Kodeeksempel

from transformers import pipeline

generator = pipeline('text-generation', model='gpt2')
output = generator('Kunstig intelligens er', max_length=50)
print(output)

Eksempel på brug af en transformer-baseret sprogmodel (GPT-2) via Hugging Face Transformers til tekstgenerering.

Oprindelse

Termen kombinerer 'Transformer' (arkitekturen introduceret i Vaswani et al., 2017) og 'sprogmodel' (en statistisk model for sprog).

Afledte ord

GPT BERT T5 XLNet

Kilder

Attention Is All You Need (2017)
Language Models are Few-Shot Learners (2020)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i model →Tilfældigt opslag →