embedding-vektor

En embedding-vektor er en tæt, flerdimensional vektorrepræsentation af et diskret objekt (fx et ord) lært af en neural netværksmodel, så semantisk lignende objekter har ens vektorer.

Kort fortalt

Kort fortalt: En embedding-vektor er en måde at omdanne ord eller andre data til tal, så computere kan forstå deres betydning; ord med beslægtet betydning får tal der ligner hinanden.

Kategori
begreb
Niveau
begynder
Udtale
[ɛmˈbɛdɪŋ ˈvɛktoɐ̯]

Betydninger

1
  1. 1

    En tæt vektorrepræsentation af et diskret symbol (fx et ord) lært ved at optimere en objektivfunktion over et stort datasæt, så vektorafstande afspejler semantisk lighed.

    • Ordet 'kat' repræsenteres af en embedding-vektor i 300 dimensioner.
    • Embedding-vektorer muliggør operationer som 'konge - mand + kvinde ≈ dronning'.

Hvornår bruges det

Bruges især i naturlig sprogbehandling (NLP) til at repræsentere ord, sætninger eller dokumenter som input til neurale netværk. Embedding-vektorer trænes typisk på store tekstkorpus og kan indfange semantiske og syntaktiske relationer. De anvendes også i anbefalingssystemer og grafrepræsentationer.

Kodeeksempel

import numpy as np
# Simulerer en embedding-matrix for 5 ord med 4 dimensioner
embedding_matrix = np.random.randn(5, 4)
# Hent embedding for ord med indeks 2
vec = embedding_matrix[2]
print(vec)

Simpelt eksempel på opslag af en embedding-vektor fra en embedding-matrix.

Oprindelse

Fra engelsk 'embedding' (indlejring) og 'vector' (vektor). Begrebet blev populært med Word2vec-modellen (Mikolov et al., 2013).

Afledte ord

2

Kilder

2
  • Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
  • GloVe: Global Vectors for Word Representation (Pennington et al., 2014)