GloVe-embeddings

GloVe (Global Vectors for Word Representation) er en teknik til at generere ordindlejringer ved at faktorisere en ord-samtidighedsmatrix baseret på globale tekststatistikker.

Kort fortalt

En metode til at lave ordvektorer, der udnytter hyppigheden af, hvor ofte ord optræder sammen i et stort tekstkorpus.

Kategori
teknik
Niveau
øvet
Udtale
/ɡloʊv ˈɛmbɛdɪŋz/

Betydninger

1
  1. 1

    En specifik metode til at lære ordindlejringer ved at optimere en vægtet mindste kvadraters regression på logaritmen af samtidighedstal, udviklet på Stanford University i 2014.

    • GloVe-embeddings er trænet på enorme tekstmængder som Wikipedia og Common Crawl.
    • I projektet brugte vi fortrænede GloVe-vektorer med 300 dimensioner som input til en LSTM-model.

Hvornår bruges det

GloVe-embeddings bruges ofte som fortrænede ordindlejringer i NLP-opgaver som tekstklassifikation, sentimentanalyse og maskinoversættelse. De kan indlæses via biblioteker som spaCy eller Gensim.

Formel

J = \sum_{i,j=1}^{V} f(X_{ij}) (w_i^T \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij})^2

Kodeeksempel

from gensim.models import KeyedVectors

# Indlæs fortrænede GloVe-vektorer (eks. glove.6B.50d.txt)
model = KeyedVectors.load_word2vec_format('glove.6B.50d.txt', binary=False, no_header=True)
vector = model['konge']
print(vector.shape)

Indlæsning af GloVe-embeddings vha. Gensim. Vektorerne er gemt i tekstformat og indlæses som KeyedVectors.

Oprindelse

Akronym for 'Global Vectors', da modellen fanger globale samtidighedsstatistikker på tværs af hele korpus.

Afledte ord

2

Kilder

1