ord-embeddingmodel

En model der transformerer sproglige elementer (ord, tokens) til tætte vektorer (embeddings) i et kontinuert vektorrum, så semantisk lighed afspejles i vektorafstande.

Kort fortalt

En ord-embeddingmodel lærer at repræsentere ord som talrækker (vektorer), så ord med lignende betydning får lignende vektorer.

Kategori
model
Niveau
øvet

Betydninger

1
  1. 1

    En maskinlæringsmodel der kortlægger sproglige enheder, typisk ord, til faste vektorer i et lavdimensionelt kontinuert rum, trænet på store tekstkorpus med henblik på at bevare syntaktiske og semantiske relationer.

    • Word2Vec er en klassisk ord-embeddingmodel, der bruger et shallow neural network til at lære vektorer ud fra co-occurrence statistik.Mikolov et al., 2013
    • GloVe er en ord-embeddingmodel baseret på matrixfaktorisering af ord-ordsamtidighedsmatrix.Pennington et al., 2014

Hvornår bruges det

Bruges i NLP-opgaver som ordgenkendelse, sentimentanalyse og maskinoversættelse som indlejringslag, der konverterer sprogdata til numeriske repræsentationer, som neurale netværk kan bearbejde. Modeller som Word2Vec, GloVe og FastText er klassiske eksempler.

Kodeeksempel

from gensim.models import Word2Vec
model = Word2Vec.load('word2vec.model')
vector = model.wv['dannebrog']
print(vector.shape)

Indlæsning af en trænet Word2Vec-model og hentning af embeddding for ordet 'dannebrog'.

Oprindelse

Sammensat af 'ord' (word), 'embedding' (indlejring) og 'model'. Udtrykket opstod med populariseringen af Word2Vec (Mikolov et al., 2013).

Afledte ord

2

Kilder

3
  • Efficient Estimation of Word Representations in Vector Space
  • GloVe: Global Vectors for Word Representation
  • Enriching Word Vectors with Subword Information