Embedding

En embedding er en kompakt, tæt vektorrepræsentation af et objekt (fx et ord, en sætning eller et billede) i et kontinuert vektorrum, hvor semantisk lighed svarer til geometrisk nærhed.

Kort fortalt

Kort fortalt: En embedding er en måde at omdanne ord eller andre data til tal, så lignende betydninger ligger tæt på hinanden i et tal-rum.

Kategori: teknik
Niveau: begynder
Udtale: ɪmˈbɛdɪŋ

Betydninger

1
Ord-embedding: en vektorrepræsentation af et enkelt ord, hvor ord med lignende betydning har ens vektorer.
- Ordet 'konge' har en embedding tæt på 'dronning' i et trænet ord-embedding-rum. — Mikolov et al., 2013
- Word2Vec er en populær metode til at lære ord-embeddings fra store tekstkorpus. — Mikolov et al., 2013
2
Sætnings- eller dokument-embedding: en vektorrepræsentation af en hel sætning eller et dokument, som fanger den overordnede betydning.
- Sætnings-embeddings bruges til at sammenligne teksters semantiske lighed i opgaver som parafrasegenkendelse. — Conneau et al., 2017
3
Generel embedding: en vektorrepræsentation af ethvert objekt (fx billeder, brugere, produkter) i et maskinlærings-system.
- I anbefalingssystemer bruges bruger- og vare-embeddings til at finde relevante produkter. — Collaborative filtering research

Hvornår bruges det

Embeddings bruges som input til neurale netværk i opgaver som tekstklassifikation, maskinoversættelse og anbefalingssystemer. De muliggør, at modellen kan lære relationer mellem objekter ud fra deres vektorafstand.

Kodeeksempel

import torch
embedding = torch.nn.Embedding(10, 3)  # 10 words, 3 dimensions
word_idx = torch.tensor([1, 2, 3])
vectors = embedding(word_idx)
print(vectors)

Opretter et embedding-lag med 10 ord og 3 dimensioner, og slår vektorer op for indeks 1, 2, 3.

Oprindelse

Fra engelsk 'embed' (indlejre) + '-ing', betegner processen eller resultatet af at indlejre data i et vektorrum.

Afledte ord

ord-embedding sætnings-embedding embedding-space

Kilder

Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
GloVe: Global Vectors for Word Representation (Pennington et al., 2014)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →