Embedding
En embedding er en kompakt, tæt vektorrepræsentation af et objekt (fx et ord, en sætning eller et billede) i et kontinuert vektorrum, hvor semantisk lighed svarer til geometrisk nærhed.
Kort fortalt
Kort fortalt: En embedding er en måde at omdanne ord eller andre data til tal, så lignende betydninger ligger tæt på hinanden i et tal-rum.
- Kategori
- teknik
- Niveau
- begynder
- Udtale
- ɪmˈbɛdɪŋ
Betydninger
3- 1
Ord-embedding: en vektorrepræsentation af et enkelt ord, hvor ord med lignende betydning har ens vektorer.
- Ordet 'konge' har en embedding tæt på 'dronning' i et trænet ord-embedding-rum. — Mikolov et al., 2013
- Word2Vec er en populær metode til at lære ord-embeddings fra store tekstkorpus. — Mikolov et al., 2013
- 2
Sætnings- eller dokument-embedding: en vektorrepræsentation af en hel sætning eller et dokument, som fanger den overordnede betydning.
- Sætnings-embeddings bruges til at sammenligne teksters semantiske lighed i opgaver som parafrasegenkendelse. — Conneau et al., 2017
- 3
Generel embedding: en vektorrepræsentation af ethvert objekt (fx billeder, brugere, produkter) i et maskinlærings-system.
- I anbefalingssystemer bruges bruger- og vare-embeddings til at finde relevante produkter. — Collaborative filtering research
Hvornår bruges det
Embeddings bruges som input til neurale netværk i opgaver som tekstklassifikation, maskinoversættelse og anbefalingssystemer. De muliggør, at modellen kan lære relationer mellem objekter ud fra deres vektorafstand.
Kodeeksempel
import torch
embedding = torch.nn.Embedding(10, 3) # 10 words, 3 dimensions
word_idx = torch.tensor([1, 2, 3])
vectors = embedding(word_idx)
print(vectors)Opretter et embedding-lag med 10 ord og 3 dimensioner, og slår vektorer op for indeks 1, 2, 3.
Oprindelse
Fra engelsk 'embed' (indlejre) + '-ing', betegner processen eller resultatet af at indlejre data i et vektorrum.
Afledte ord
3Kilder
3- Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
- GloVe: Global Vectors for Word Representation (Pennington et al., 2014)
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)