encoder-embedding

En encoder-embedding er en kontekstualiseret vektorrepræsentation af et inputtoken genereret af encoderdelen af en transformerarkitektur.

Kort fortalt

Kort fortalt: en encoder-embedding er en vektor, der fanger betydningen af et ord i dets kontekst, skabt af encoder-delen i en transformer.

Kategori
begreb
Niveau
øvet
Udtale
enˈkoːdərˌɛmbɛdɪŋ

Betydninger

1
  1. 1

    Kontekstualiseret vektorrepræsentation af et token, genereret af encoderdelen i en transformerarkitektur, ofte fra en models sidste skjulte lag.

    • BERTs encoder-embeddings indeholder både ordets betydning og dets kontekstuelle relationer.
    • Vi brugte encoder-embeddings fra distilBERT som input til en logistisk regressionsmodel.

Hvornår bruges det

Encoder-embeddings bruges typisk i NLP-opgaver som tekstklassifikation, navnegenkendelse og spørgsmål-besvarelse. Man udtrækker dem fra et fortrænet encodermodellen (f.eks. BERT) og anvender dem som input til en klassifikator eller anden downstream-model.

Kodeeksempel

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
model = AutoModel.from_pretrained('bert-base-uncased')

text = "The cat sat on the mat."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
encoder_embeddings = outputs.last_hidden_state  # [batch, seq_len, hidden_dim]

Eksempel på hentning af encoder-embeddings fra BERT vha. Hugging Face Transformers.

Oprindelse

Sammensætning af 'encoder' (en koder) og 'embedding' (indlejring).

Kilder

2
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)
  • Attention Is All You Need (Vaswani et al., 2017)