embedding-rum
Embedding-rum er et abstrakt vektorrum, hvor diskrete objekter (fx ord, billeder) repræsenteres som kontinuerte vektorer, så semantiske relationer svarer til geometriske afstande og retninger.
Kort fortalt
Tænk på det som et 3D-landkort over begreber, hvor ord med samme betydning ligger tæt på hinanden, og hvor du kan 'gå' fra ét ord til et andet ved at følge en bestemt retning.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Et vektorrum hvor hver diskret enhed (fx ord, dokumenter, noder i en graf) er afbildet til et punkt, således at semantiske og strukturelle relationer bevares i rummets geometri.
- I ord-embedding-rummet ligger 'konge' og 'dronning' tæt på hinanden, og vektorforskellen mellem 'mand' og 'kvinde' svarer til forskellen mellem 'konge' og 'dronning'. — Mikolov et al., 2013
- Embedding-rummets dimensionalitet påvirker både udtrykskraft og beregningsomkostninger; typiske dimensioner er 50-300 for ord.
Hvornår bruges det
Embedding-rum bruges inden for NLP og computer vision til at transformere sproglige eller visuelle data til en numerisk form, som maskinlæringsmodeller kan arbejde med. Man måler lighed mellem objekter via cosinus-afstand eller euklidisk distance i rummet.
Oprindelse
Sammensat af 'embedding' (indlejring) og 'rum' (vector space). 'Embedding' blev populært med Word2Vec (Mikolov et al., 2013).
Afledte ord
1Kilder
1- Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)