ord-embedding

En teknik inden for naturlig sprogbehandling, hvor ord repræsenteres som tætte vektorer i et kontinuert vektorrum.

Kort fortalt

Ord-embedding er en måde at give ord en matematisk repræsentation, så computere kan forstå betydningsmæssige relationer mellem dem.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En repræsentation af ord som tætte vektorer i et kontinuert vektorrum, så ord med lignende betydning har lignende vektorer.

    • Ord-embedding har revolutioneret naturlig sprogbehandling ved at give maskiner en forståelse af ordrelationer.forskningsartikel, 2013
    • Ved at anvende ord-embedding kan man beregne cosinus-lighed mellem 'konge' og 'dronning'.tutorial, 2020

Hvornår bruges det

Ord-embedding bruges som inputlag i neurale netværk til tekst, fx i sprogmodeller og maskinoversættelse. Det gør det muligt at fange semantisk lighed og analogier.

Kodeeksempel

from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('path/to/vectors.bin', binary=True)
vector = model['konge']  # returns a numpy array

Indlæsning af en forudtrænet word2vec-model og hentning af vektoren for ordet 'konge'.

Oprindelse

Ordet 'embedding' kommer fra engelsk og betyder 'indlejring' eller 'indlejret repræsentation'. Teknikken blev populær med word2vec i 2013.

Afledte ord

2

Kilder

1
  • Distributed Representations of Words and Phrases and their Compositionality (Mikolov et al., 2013)