ordembedding
En ordembedding er en tæt, lavdimensionel vektorrepræsentation af et ord, hvor semantisk og syntaktisk lighed afspejles i vektorens afstand.
Kort fortalt
Ordembeddings oversætter ord til tal (vektorer), så ord med lignende betydning kommer tæt på hinanden i et 'ordrum'.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
En kontinuerlig vektorrepræsentation af et ord i et højdimensionelt rum, typisk lært af en neuronal model på et stort tekstkorpus.
- Trænede ordembeddings kan fange relationer som 'konge' - 'mand' + 'kvinde' ≈ 'dronning'.
- Ordembeddings i 300 dimensioner er standard i mange NLP-pipelines.
Hvornår bruges det
Ordembeddings bruges som input til neurale netværk i NLP-opgaver som tekstklassifikation, maskinoversættelse og sentimentanalyse. De er ofte fortrænede på store tekstkorpus og kan justeres til specifikke domæner.
Kodeeksempel
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
vector = model['konge']Indlæsning af fortrænede Word2Vec-embeddings med Gensim.
Oprindelse
Udtrykket er en oversættelse af det engelske 'word embedding', introduceret af Bengio et al. (2003) og populariseret af Mikolov et al. (2013) med Word2Vec.
Afledte ord
2Kilder
2- Distributed Representations of Words and Phrases and their Compositionality (Mikolov et al., 2013)
- GloVe: Global Vectors for Word Representation (Pennington et al., 2014)