Embedding

En embedding er en kompakt, tæt vektorrepræsentation af et objekt (fx et ord, en sætning eller et billede) i et kontinuert vektorrum, hvor semantisk lighed svarer til geometrisk nærhed.

Kort fortalt

Kort fortalt: En embedding er en måde at omdanne ord eller andre data til tal, så lignende betydninger ligger tæt på hinanden i et tal-rum.

Kategori
teknik
Niveau
begynder
Udtale
ɪmˈbɛdɪŋ

Betydninger

3
  1. 1

    Ord-embedding: en vektorrepræsentation af et enkelt ord, hvor ord med lignende betydning har ens vektorer.

    • Ordet 'konge' har en embedding tæt på 'dronning' i et trænet ord-embedding-rum.Mikolov et al., 2013
    • Word2Vec er en populær metode til at lære ord-embeddings fra store tekstkorpus.Mikolov et al., 2013
  2. 2

    Sætnings- eller dokument-embedding: en vektorrepræsentation af en hel sætning eller et dokument, som fanger den overordnede betydning.

    • Sætnings-embeddings bruges til at sammenligne teksters semantiske lighed i opgaver som parafrasegenkendelse.Conneau et al., 2017
  3. 3

    Generel embedding: en vektorrepræsentation af ethvert objekt (fx billeder, brugere, produkter) i et maskinlærings-system.

    • I anbefalingssystemer bruges bruger- og vare-embeddings til at finde relevante produkter.Collaborative filtering research

Hvornår bruges det

Embeddings bruges som input til neurale netværk i opgaver som tekstklassifikation, maskinoversættelse og anbefalingssystemer. De muliggør, at modellen kan lære relationer mellem objekter ud fra deres vektorafstand.

Kodeeksempel

import torch
embedding = torch.nn.Embedding(10, 3)  # 10 words, 3 dimensions
word_idx = torch.tensor([1, 2, 3])
vectors = embedding(word_idx)
print(vectors)

Opretter et embedding-lag med 10 ord og 3 dimensioner, og slår vektorer op for indeks 1, 2, 3.

Oprindelse

Fra engelsk 'embed' (indlejre) + '-ing', betegner processen eller resultatet af at indlejre data i et vektorrum.

Afledte ord

3

Kilder

3
  • Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
  • GloVe: Global Vectors for Word Representation (Pennington et al., 2014)
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)