ord-embeddingmodel
En model der transformerer sproglige elementer (ord, tokens) til tætte vektorer (embeddings) i et kontinuert vektorrum, så semantisk lighed afspejles i vektorafstande.
Kort fortalt
En ord-embeddingmodel lærer at repræsentere ord som talrækker (vektorer), så ord med lignende betydning får lignende vektorer.
- Kategori
- model
- Niveau
- øvet
Betydninger
1- 1
En maskinlæringsmodel der kortlægger sproglige enheder, typisk ord, til faste vektorer i et lavdimensionelt kontinuert rum, trænet på store tekstkorpus med henblik på at bevare syntaktiske og semantiske relationer.
- Word2Vec er en klassisk ord-embeddingmodel, der bruger et shallow neural network til at lære vektorer ud fra co-occurrence statistik. — Mikolov et al., 2013
- GloVe er en ord-embeddingmodel baseret på matrixfaktorisering af ord-ordsamtidighedsmatrix. — Pennington et al., 2014
Hvornår bruges det
Bruges i NLP-opgaver som ordgenkendelse, sentimentanalyse og maskinoversættelse som indlejringslag, der konverterer sprogdata til numeriske repræsentationer, som neurale netværk kan bearbejde. Modeller som Word2Vec, GloVe og FastText er klassiske eksempler.
Kodeeksempel
from gensim.models import Word2Vec
model = Word2Vec.load('word2vec.model')
vector = model.wv['dannebrog']
print(vector.shape)Indlæsning af en trænet Word2Vec-model og hentning af embeddding for ordet 'dannebrog'.
Oprindelse
Sammensat af 'ord' (word), 'embedding' (indlejring) og 'model'. Udtrykket opstod med populariseringen af Word2Vec (Mikolov et al., 2013).
Afledte ord
2Kilder
3- Efficient Estimation of Word Representations in Vector Space
- GloVe: Global Vectors for Word Representation
- Enriching Word Vectors with Subword Information