global kontekstvektor
En vektorrepræsentation, der opsummerer informationen fra hele inputsekvensen i en transformer- eller seq2seq-model.
Kort fortalt
En global kontekstvektor er ét tal-array, der komprimerer en hel sætning eller sekvens til en enkelt repræsentation.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
En vektor, der repræsenterer hele inputsekvensen, ofte genereret ved pooling eller som output fra en special token (f.eks. [CLS]), og som bruges til at indfange global kontekst.
- I BERT-modellen fungerer [CLS]-tokenets skjulte tilstand som en global kontekstvektor for klassifikationsopgaver. — Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019
- Encoderens sidste skjulte tilstand kan bruges som en global kontekstvektor i seq2seq-modeller. — Bahdanau et al., Neural Machine Translation by Jointly Learning to Align and Translate, 2015
Hvornår bruges det
Global kontekstvektor anvendes typisk i encoder-decoder-modeller, hvor den overføres fra encoder til decoder for at starte genereringen. I BERT-lignende modeller bruges [CLS]-tokenets output som en global kontekstvektor til klassifikation.
Oprindelse
Termen 'global kontekstvektor' er en direkte oversættelse af engelsk 'global context vector', som opstod i forbindelse med opmærksomhedsmekanismer i sekvens-til-sekvens-modeller.
Kilder
2- Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019
- Bahdanau et al., Neural Machine Translation by Jointly Learning to Align and Translate, 2015