Word2vec

Word2vec er en familie af neurale netværksmodeller, der lærer vektorrepræsentationer af ord fra store tekstkorpus.

Kort fortalt

Word2vec er en metode til at omdanne ord til talvektorer, så ord med lignende betydning får vektorer, der ligger tæt på hinanden.

Kategori
model
Niveau
øvet
Udtale
wɜːrd tuː vɛk

Betydninger

1
  1. 1

    En model eller træningsteknik, der producerer tætte vektorrepræsentationer (ordindlejringer) ved at optimere et neuralt netværk til at forudsige ord ud fra deres kontekst (CBOW) eller kontekst ud fra et ord (Skip-gram).

    • Word2vec-modellen blev trænet på et stort korpus af danske avisartikler for at generere ordindlejringer.Eksempel
    • Ved at anvende word2vec kan man finde, at 'konge' og 'dronning' har en vektorrelation svarende til 'mand' og 'kvinde'.Eksempel

Hvornår bruges det

Word2vec bruges typisk til at skabe ordindlejringer til downstream-opgaver som tekstklassifikation, sentimentanalyse og maskinoversættelse. Det anvendes også til at finde semantiske relationer mellem ord.

Kodeeksempel

from gensim.models import Word2Vec
sentences = [['this', 'is', 'a', 'sentence'], ['another', 'sentence']]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)
vector = model.wv['sentence']

Eksempel på træning af en Word2Vec-model med Gensim på to små sætninger.

Oprindelse

Introduceret af Tomas Mikolov og kolleger hos Google i 2013 i artiklerne 'Efficient Estimation of Word Representations in Vector Space' og 'Distributed Representations of Words and Phrases and their Compositionality'.

Afledte ord

3

Kilder

2
  • Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
  • Distributed Representations of Words and Phrases and their Compositionality (Mikolov et al., 2013)