Word2vec
Word2vec er en familie af neurale netværksmodeller, der lærer vektorrepræsentationer af ord fra store tekstkorpus.
Kort fortalt
Word2vec er en metode til at omdanne ord til talvektorer, så ord med lignende betydning får vektorer, der ligger tæt på hinanden.
- Kategori
- model
- Niveau
- øvet
- Udtale
- wɜːrd tuː vɛk
Betydninger
1- 1
En model eller træningsteknik, der producerer tætte vektorrepræsentationer (ordindlejringer) ved at optimere et neuralt netværk til at forudsige ord ud fra deres kontekst (CBOW) eller kontekst ud fra et ord (Skip-gram).
- Word2vec-modellen blev trænet på et stort korpus af danske avisartikler for at generere ordindlejringer. — Eksempel
- Ved at anvende word2vec kan man finde, at 'konge' og 'dronning' har en vektorrelation svarende til 'mand' og 'kvinde'. — Eksempel
Hvornår bruges det
Word2vec bruges typisk til at skabe ordindlejringer til downstream-opgaver som tekstklassifikation, sentimentanalyse og maskinoversættelse. Det anvendes også til at finde semantiske relationer mellem ord.
Kodeeksempel
from gensim.models import Word2Vec
sentences = [['this', 'is', 'a', 'sentence'], ['another', 'sentence']]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)
vector = model.wv['sentence']Eksempel på træning af en Word2Vec-model med Gensim på to små sætninger.
Oprindelse
Introduceret af Tomas Mikolov og kolleger hos Google i 2013 i artiklerne 'Efficient Estimation of Word Representations in Vector Space' og 'Distributed Representations of Words and Phrases and their Compositionality'.
Afledte ord
3Kilder
2- Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
- Distributed Representations of Words and Phrases and their Compositionality (Mikolov et al., 2013)