encoder-embedding
En encoder-embedding er en kontekstualiseret vektorrepræsentation af et inputtoken genereret af encoderdelen af en transformerarkitektur.
Kort fortalt
Kort fortalt: en encoder-embedding er en vektor, der fanger betydningen af et ord i dets kontekst, skabt af encoder-delen i en transformer.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- enˈkoːdərˌɛmbɛdɪŋ
Betydninger
1- 1
Kontekstualiseret vektorrepræsentation af et token, genereret af encoderdelen i en transformerarkitektur, ofte fra en models sidste skjulte lag.
- BERTs encoder-embeddings indeholder både ordets betydning og dets kontekstuelle relationer.
- Vi brugte encoder-embeddings fra distilBERT som input til en logistisk regressionsmodel.
Hvornår bruges det
Encoder-embeddings bruges typisk i NLP-opgaver som tekstklassifikation, navnegenkendelse og spørgsmål-besvarelse. Man udtrækker dem fra et fortrænet encodermodellen (f.eks. BERT) og anvender dem som input til en klassifikator eller anden downstream-model.
Kodeeksempel
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
model = AutoModel.from_pretrained('bert-base-uncased')
text = "The cat sat on the mat."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
encoder_embeddings = outputs.last_hidden_state # [batch, seq_len, hidden_dim]Eksempel på hentning af encoder-embeddings fra BERT vha. Hugging Face Transformers.
Oprindelse
Sammensætning af 'encoder' (en koder) og 'embedding' (indlejring).
Kilder
2- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)
- Attention Is All You Need (Vaswani et al., 2017)