global kontekstvektor

En vektorrepræsentation, der opsummerer informationen fra hele inputsekvensen i en transformer- eller seq2seq-model.

Kort fortalt

En global kontekstvektor er ét tal-array, der komprimerer en hel sætning eller sekvens til en enkelt repræsentation.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    En vektor, der repræsenterer hele inputsekvensen, ofte genereret ved pooling eller som output fra en special token (f.eks. [CLS]), og som bruges til at indfange global kontekst.

    • I BERT-modellen fungerer [CLS]-tokenets skjulte tilstand som en global kontekstvektor for klassifikationsopgaver.Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019
    • Encoderens sidste skjulte tilstand kan bruges som en global kontekstvektor i seq2seq-modeller.Bahdanau et al., Neural Machine Translation by Jointly Learning to Align and Translate, 2015

Hvornår bruges det

Global kontekstvektor anvendes typisk i encoder-decoder-modeller, hvor den overføres fra encoder til decoder for at starte genereringen. I BERT-lignende modeller bruges [CLS]-tokenets output som en global kontekstvektor til klassifikation.

Oprindelse

Termen 'global kontekstvektor' er en direkte oversættelse af engelsk 'global context vector', som opstod i forbindelse med opmærksomhedsmekanismer i sekvens-til-sekvens-modeller.

Kilder

2
  • Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019
  • Bahdanau et al., Neural Machine Translation by Jointly Learning to Align and Translate, 2015