forudtrænet transformer-model

En transformer-model, der er blevet trænet på en stor og generel datasæt (foruddannelse) og efterfølgende kan finjusteres til specifikke opgaver.

Kort fortalt

En forudtrænet transformer-model er en AI-model, der er trænet på store mængder tekst, så den kan genbruges til forskellige opgaver uden at skulle trænes fra bunden.

Kategori
model
Niveau
øvet

Betydninger

1
  1. 1

    En transformer-model, der er blevet forudtrænet på en stor tekstsamling og derefter kan anvendes direkte eller finjusteres til specifikke opgaver inden for naturlig sprogbehandling.

    • GPT-3 er en forudtrænet transformer-model, der kan generere menneskelignende tekst uden opgavespecifik træning.Brown et al., 2020
    • BERT, en forudtrænet transformer-model, opnåede state-of-the-art på flere NLP-opgaver ved finjustering.Devlin et al., 2019

Hvornår bruges det

Forudtrænede transformermodeller bruges som udgangspunkt for næsten alle moderne sprogforståelsesopgaver. De downloades typisk fra en modelhub og finjusteres med mindre, opgavespecifikke datasæt.

Oprindelse

Udtrykket kombinerer 'forudtrænet' (eng. pretrained), som betegner den indledende træningsfase, og 'transformer-model', som refererer til transformerarkitekturen introduceret af Vaswani et al. i 2017.

Afledte ord

2

Kilder

3
  • Attention Is All You Need
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
  • Language Models are Few-Shot Learners