embedding-vektor
En embedding-vektor er en tæt, flerdimensional vektorrepræsentation af et diskret objekt (fx et ord) lært af en neural netværksmodel, så semantisk lignende objekter har ens vektorer.
Kort fortalt
Kort fortalt: En embedding-vektor er en måde at omdanne ord eller andre data til tal, så computere kan forstå deres betydning; ord med beslægtet betydning får tal der ligner hinanden.
- Kategori
- begreb
- Niveau
- begynder
- Udtale
- [ɛmˈbɛdɪŋ ˈvɛktoɐ̯]
Betydninger
1- 1
En tæt vektorrepræsentation af et diskret symbol (fx et ord) lært ved at optimere en objektivfunktion over et stort datasæt, så vektorafstande afspejler semantisk lighed.
- Ordet 'kat' repræsenteres af en embedding-vektor i 300 dimensioner.
- Embedding-vektorer muliggør operationer som 'konge - mand + kvinde ≈ dronning'.
Hvornår bruges det
Bruges især i naturlig sprogbehandling (NLP) til at repræsentere ord, sætninger eller dokumenter som input til neurale netværk. Embedding-vektorer trænes typisk på store tekstkorpus og kan indfange semantiske og syntaktiske relationer. De anvendes også i anbefalingssystemer og grafrepræsentationer.
Kodeeksempel
import numpy as np
# Simulerer en embedding-matrix for 5 ord med 4 dimensioner
embedding_matrix = np.random.randn(5, 4)
# Hent embedding for ord med indeks 2
vec = embedding_matrix[2]
print(vec)Simpelt eksempel på opslag af en embedding-vektor fra en embedding-matrix.
Oprindelse
Fra engelsk 'embedding' (indlejring) og 'vector' (vektor). Begrebet blev populært med Word2vec-modellen (Mikolov et al., 2013).
Afledte ord
2Kilder
2- Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
- GloVe: Global Vectors for Word Representation (Pennington et al., 2014)