Word2vec

Word2vec er en familie af neurale netværksmodeller, der lærer vektorrepræsentationer af ord fra store tekstkorpus.

Kort fortalt

Word2vec er en metode til at omdanne ord til talvektorer, så ord med lignende betydning får vektorer, der ligger tæt på hinanden.

Kategori: model
Niveau: øvet
Udtale: wɜːrd tuː vɛk

Betydninger

1
En model eller træningsteknik, der producerer tætte vektorrepræsentationer (ordindlejringer) ved at optimere et neuralt netværk til at forudsige ord ud fra deres kontekst (CBOW) eller kontekst ud fra et ord (Skip-gram).
- Word2vec-modellen blev trænet på et stort korpus af danske avisartikler for at generere ordindlejringer. — Eksempel
- Ved at anvende word2vec kan man finde, at 'konge' og 'dronning' har en vektorrelation svarende til 'mand' og 'kvinde'. — Eksempel

Hvornår bruges det

Word2vec bruges typisk til at skabe ordindlejringer til downstream-opgaver som tekstklassifikation, sentimentanalyse og maskinoversættelse. Det anvendes også til at finde semantiske relationer mellem ord.

Kodeeksempel

from gensim.models import Word2Vec
sentences = [['this', 'is', 'a', 'sentence'], ['another', 'sentence']]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)
vector = model.wv['sentence']

Eksempel på træning af en Word2Vec-model med Gensim på to små sætninger.

Oprindelse

Introduceret af Tomas Mikolov og kolleger hos Google i 2013 i artiklerne 'Efficient Estimation of Word Representations in Vector Space' og 'Distributed Representations of Words and Phrases and their Compositionality'.

Afledte ord

ordindlejring Skip-gram CBOW

Kilder

Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
Distributed Representations of Words and Phrases and their Compositionality (Mikolov et al., 2013)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i model →Tilfældigt opslag →