ordindlejring

En ordindlejring er en teknisk metode, der kortlægger ord til tætte vektorer i et kontinuert vektorrum, så ord med lignende betydning har lignende repræsentationer.

Kort fortalt

Ordindlejringer oversætter ord til tal, så computeren kan forstå betydning og lighed mellem ord.

Kategori
teknik
Niveau
øvet
Udtale
[ˈoɐ̯dinˌdlɑjʁeŋ]

Betydninger

2
  1. 1

    En repræsentation af ord som tætte, reelle vektorer, hvor den semantiske lighed afspejles i vektorernes afstand (f.eks. cosinusafstand).

    • I ordindlejringsrummet er vektoren for 'konge' tæt på vektoren for 'monark'.
    • Mange modeller starter med forudtrænede ordindlejringer som GloVe eller Word2Vec.
  2. 2

    Processen med at lære sådanne vektorer fra tekstdata ved hjælp af neurale netværk eller matrixfaktorisering.

    • Ordindlejring kan udføres med metoder som Word2Vec, GloVe eller FastText.

Hvornår bruges det

Ordindlejringer bruges som inddata i neurale netværk til opgaver som tekstklassifikation, maskinoversættelse og sentimentanalyse. De er fundamentale i de fleste moderne NLP-systemer og kan være forudtrænede på store tekstkorpus.

Kodeeksempel

from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
vector = model['ord']  # vektor for ordet 'ord'

Eksempel på indlæsning af forudtrænede Word2Vec-vektorer med Gensim.

Oprindelse

Sammensat af 'ord' og 'indlejring'; lånt fra engelsk 'word embedding'.

Afledte ord

2

Kilder

2
  • Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
  • GloVe: Global Vectors for Word Representation (Pennington et al., 2014)