Transformer-baseret sprogmodel

En transformer-baseret sprogmodel er en neural netværksmodel, der anvender Transformer-arkitekturen til at forudsige eller generere sprog ved at lære mønstre fra store tekstmængder.

Kort fortalt

Kort fortalt: en sprogmodel bygget på Transformer-teknologien, som gør den i stand til at forstå sammenhænge i tekst uden at læse den fra venstre mod højre.

Kategori
model
Niveau
øvet

Betydninger

1
  1. 1

    En sprogmodel der bygger på Transformer-arkitekturen, karakteriseret ved brug af selvopmærksomhed (self-attention) til at modellere sproglige afhængigheder uden sekventiel behandling.

    • GPT-3 er en af de største transformer-baserede sprogmodeller med 175 milliarder parametre.Language Models are Few-Shot Learners, 2020
    • BERT, en transformer-baseret sprogmodel, revolutionerede forståelsen af kontekst i NLP.BERT: Pre-training of Deep Bidirectional Transformers, 2019

Hvornår bruges det

Transformer-baserede sprogmodeller anvendes bredt til opgaver som tekstgenerering, maskinoversættelse, sentimentanalyse og spørgsmålssvar. De trænes typisk på enorme tekstkorpus og kan finjusteres til specifikke opgaver.

Kodeeksempel

from transformers import pipeline

generator = pipeline('text-generation', model='gpt2')
output = generator('Kunstig intelligens er', max_length=50)
print(output)

Eksempel på brug af en transformer-baseret sprogmodel (GPT-2) via Hugging Face Transformers til tekstgenerering.

Oprindelse

Termen kombinerer 'Transformer' (arkitekturen introduceret i Vaswani et al., 2017) og 'sprogmodel' (en statistisk model for sprog).

Afledte ord

4

Kilder

3
  • Attention Is All You Need (2017)
  • Language Models are Few-Shot Learners (2020)
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019)