encoder-embedding

En encoder-embedding er en kontekstualiseret vektorrepræsentation af et inputtoken genereret af encoderdelen af en transformerarkitektur.

Kort fortalt

Kort fortalt: en encoder-embedding er en vektor, der fanger betydningen af et ord i dets kontekst, skabt af encoder-delen i en transformer.

Kategori: begreb
Niveau: øvet
Udtale: enˈkoːdərˌɛmbɛdɪŋ

Betydninger

1
Kontekstualiseret vektorrepræsentation af et token, genereret af encoderdelen i en transformerarkitektur, ofte fra en models sidste skjulte lag.
- BERTs encoder-embeddings indeholder både ordets betydning og dets kontekstuelle relationer.
- Vi brugte encoder-embeddings fra distilBERT som input til en logistisk regressionsmodel.

Hvornår bruges det

Encoder-embeddings bruges typisk i NLP-opgaver som tekstklassifikation, navnegenkendelse og spørgsmål-besvarelse. Man udtrækker dem fra et fortrænet encodermodellen (f.eks. BERT) og anvender dem som input til en klassifikator eller anden downstream-model.

Kodeeksempel

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
model = AutoModel.from_pretrained('bert-base-uncased')

text = "The cat sat on the mat."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
encoder_embeddings = outputs.last_hidden_state  # [batch, seq_len, hidden_dim]

Eksempel på hentning af encoder-embeddings fra BERT vha. Hugging Face Transformers.

Oprindelse

Sammensætning af 'encoder' (en koder) og 'embedding' (indlejring).

Kilder

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)
Attention Is All You Need (Vaswani et al., 2017)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →