ordindlejring
En ordindlejring er en teknisk metode, der kortlægger ord til tætte vektorer i et kontinuert vektorrum, så ord med lignende betydning har lignende repræsentationer.
Kort fortalt
Ordindlejringer oversætter ord til tal, så computeren kan forstå betydning og lighed mellem ord.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- [ˈoɐ̯dinˌdlɑjʁeŋ]
Betydninger
2- 1
En repræsentation af ord som tætte, reelle vektorer, hvor den semantiske lighed afspejles i vektorernes afstand (f.eks. cosinusafstand).
- I ordindlejringsrummet er vektoren for 'konge' tæt på vektoren for 'monark'.
- Mange modeller starter med forudtrænede ordindlejringer som GloVe eller Word2Vec.
- 2
Processen med at lære sådanne vektorer fra tekstdata ved hjælp af neurale netværk eller matrixfaktorisering.
- Ordindlejring kan udføres med metoder som Word2Vec, GloVe eller FastText.
Hvornår bruges det
Ordindlejringer bruges som inddata i neurale netværk til opgaver som tekstklassifikation, maskinoversættelse og sentimentanalyse. De er fundamentale i de fleste moderne NLP-systemer og kan være forudtrænede på store tekstkorpus.
Kodeeksempel
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
vector = model['ord'] # vektor for ordet 'ord'Eksempel på indlæsning af forudtrænede Word2Vec-vektorer med Gensim.
Oprindelse
Sammensat af 'ord' og 'indlejring'; lånt fra engelsk 'word embedding'.
Afledte ord
2Kilder
2- Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
- GloVe: Global Vectors for Word Representation (Pennington et al., 2014)