embedding-rum

Embedding-rum er et abstrakt vektorrum, hvor diskrete objekter (fx ord, billeder) repræsenteres som kontinuerte vektorer, så semantiske relationer svarer til geometriske afstande og retninger.

Kort fortalt

Tænk på det som et 3D-landkort over begreber, hvor ord med samme betydning ligger tæt på hinanden, og hvor du kan 'gå' fra ét ord til et andet ved at følge en bestemt retning.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Et vektorrum hvor hver diskret enhed (fx ord, dokumenter, noder i en graf) er afbildet til et punkt, således at semantiske og strukturelle relationer bevares i rummets geometri.

    • I ord-embedding-rummet ligger 'konge' og 'dronning' tæt på hinanden, og vektorforskellen mellem 'mand' og 'kvinde' svarer til forskellen mellem 'konge' og 'dronning'.Mikolov et al., 2013
    • Embedding-rummets dimensionalitet påvirker både udtrykskraft og beregningsomkostninger; typiske dimensioner er 50-300 for ord.

Hvornår bruges det

Embedding-rum bruges inden for NLP og computer vision til at transformere sproglige eller visuelle data til en numerisk form, som maskinlæringsmodeller kan arbejde med. Man måler lighed mellem objekter via cosinus-afstand eller euklidisk distance i rummet.

Oprindelse

Sammensat af 'embedding' (indlejring) og 'rum' (vector space). 'Embedding' blev populært med Word2Vec (Mikolov et al., 2013).

Afledte ord

1

Kilder

1
  • Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)