ordembedding

En ordembedding er en tæt, lavdimensionel vektorrepræsentation af et ord, hvor semantisk og syntaktisk lighed afspejles i vektorens afstand.

Kort fortalt

Ordembeddings oversætter ord til tal (vektorer), så ord med lignende betydning kommer tæt på hinanden i et 'ordrum'.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    En kontinuerlig vektorrepræsentation af et ord i et højdimensionelt rum, typisk lært af en neuronal model på et stort tekstkorpus.

    • Trænede ordembeddings kan fange relationer som 'konge' - 'mand' + 'kvinde' ≈ 'dronning'.
    • Ordembeddings i 300 dimensioner er standard i mange NLP-pipelines.

Hvornår bruges det

Ordembeddings bruges som input til neurale netværk i NLP-opgaver som tekstklassifikation, maskinoversættelse og sentimentanalyse. De er ofte fortrænede på store tekstkorpus og kan justeres til specifikke domæner.

Kodeeksempel

from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
vector = model['konge']

Indlæsning af fortrænede Word2Vec-embeddings med Gensim.

Oprindelse

Udtrykket er en oversættelse af det engelske 'word embedding', introduceret af Bengio et al. (2003) og populariseret af Mikolov et al. (2013) med Word2Vec.

Afledte ord

2

Kilder

2
  • Distributed Representations of Words and Phrases and their Compositionality (Mikolov et al., 2013)
  • GloVe: Global Vectors for Word Representation (Pennington et al., 2014)