embedding-vektor

En embedding-vektor er en tæt, flerdimensional vektorrepræsentation af et diskret objekt (fx et ord) lært af en neural netværksmodel, så semantisk lignende objekter har ens vektorer.

Kort fortalt

Kort fortalt: En embedding-vektor er en måde at omdanne ord eller andre data til tal, så computere kan forstå deres betydning; ord med beslægtet betydning får tal der ligner hinanden.

Kategori: begreb
Niveau: begynder
Udtale: [ɛmˈbɛdɪŋ ˈvɛktoɐ̯]

Betydninger

1
En tæt vektorrepræsentation af et diskret symbol (fx et ord) lært ved at optimere en objektivfunktion over et stort datasæt, så vektorafstande afspejler semantisk lighed.
- Ordet 'kat' repræsenteres af en embedding-vektor i 300 dimensioner.
- Embedding-vektorer muliggør operationer som 'konge - mand + kvinde ≈ dronning'.

Hvornår bruges det

Bruges især i naturlig sprogbehandling (NLP) til at repræsentere ord, sætninger eller dokumenter som input til neurale netværk. Embedding-vektorer trænes typisk på store tekstkorpus og kan indfange semantiske og syntaktiske relationer. De anvendes også i anbefalingssystemer og grafrepræsentationer.

Kodeeksempel

import numpy as np
# Simulerer en embedding-matrix for 5 ord med 4 dimensioner
embedding_matrix = np.random.randn(5, 4)
# Hent embedding for ord med indeks 2
vec = embedding_matrix[2]
print(vec)

Simpelt eksempel på opslag af en embedding-vektor fra en embedding-matrix.

Oprindelse

Fra engelsk 'embedding' (indlejring) og 'vector' (vektor). Begrebet blev populært med Word2vec-modellen (Mikolov et al., 2013).

Afledte ord

embedding-lag embedding-matrix

Kilder

Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
GloVe: Global Vectors for Word Representation (Pennington et al., 2014)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →